スケールフリーネットワーク

Transcript スケールフリーネットワーク

タンパク質相互作用ネットワークの
スケールフリーモデル
阿久津達也
京都大学化学研究所
バイオインフォマティクスセンター
研究の目的 (1)
• 人間の設計図
– ３２億文字 ⇒ CD-ROM １枚
• 意外に少ない
– パソコンゲームより少ないかも
– 細胞は60兆個もある
• ここに全てが書かれているはず
– 臓器の作り方、脳の作り方
– 顔の作り方
– 知能、本能
⇒ でも、どう書かれているか、ほとんどわかっ
ていない
研究の目的 (2)
• 設計図は手に入れたけど、設計図がどの
ように書かれているか、ほとんど、わかっ
ていない
⇒設計図は荘大なパズル
⇒これを解くのは21世紀の重要研究課題
• 人間の設計図がCD-ROM １枚
⇒数理的・情報学的原理があるはず !
⇒それを解明したい
バイオインフォマティクス
• 生命情報学
• バイオ（生物）＋インフォマティクス（情報学）
• ３２億文字を目だけで分析するのは無理
⇒ コンピュータによる解析が必要
バイオインフォマティクスの目的
• DNA配列やタンパク質構造などのコンピュータ
による解析方法の開発
• コンピュータを用いた生物学的知識の発見
システム生物学
• 生命をシステムとして理解
• 細胞、臓器などの数理モデルを
構築し、生物学的実験によりモデ
ルを検証、改良
主要研究トピック
• ネットワーク構造解析
– スケールフリーネットワーク
– 代謝ネットワークの頑健性解析
• 遺伝子ネットワーク解析（ブーリアンネットワー
ク）
– アトラクター、制御
• RNA二次構造・相互作用予測
• カーネル法
– 化学構造の解析、設計
• 木構造のパターンマッチング、検索
内容
• スケールフリーネットワーク
• タンパク質相互作用ネットワークの数理モデル
グラフと実際のネットワークの対応
• 代謝ネットワーク
– 頂点 ⇔ 化合物、
辺 ⇔ 代謝反応
• タンパク質相互作用ネットワーク
– 頂点 ⇔ タンパク質、辺 ⇔ 相互作用
• 遺伝子ネットワーク
– 頂点 ⇔ 遺伝子、
辺 ⇔ 遺伝子間制御関係
• WWW
– 頂点 ⇔ WEBページ、辺 ⇔ リンク
• 共著関係
– 頂点 ⇔ 研究者、
辺 ⇔ 共著論文の有無
スケールフリーネットワーク (1)

頂点の次数


P(k)



次数=5
その頂点につながっ
ている辺の個数
次数分布
次数 k の頂点の頻
度
次数=2
スケールフリーネッ
トワーク

P(k) がべき乗則に
従う
P(k )  k

次数=3
代謝マップ, グラフ, 次数
A



D
F
G
H
I
J
次数1の頂点： J
次数2の頂点： B, C, D, F, G, H
次数3の頂点： E, I, A
次数分布: P(k)

C
E
次数


B
P(1)=0.1, P(2)=0.6, P(3)=0.3, P(4)=P(5)=P(6)=…=0
スケールフリーネットワーク (2)
次数=5
次数=2
頂
点
数
頂点数 ∝ (次数)-3
次数
次数=3
スケールフリーネットワーク (3)
• Barabasi らが1999年頃に発見。以降、数多く
の研究
• 特徴：有力な頂点（ハブ）に多くの頂点が連結
• 次数 k の頂点の個数が k -γに比例（べき乗則）
– ランダムな場合(ポアソン分布: e-λλk/k!)と大差
• 実際のネットワークにおける k –γ
–
–
–
–
–
タンパク質相互作用： γ≒2.2
代謝ネットワーク： γ≒2.24 （生物種により異なる）
映画俳優の共演関係：γ≒2.3
WWW：γ≒2.1
送電網： γ≒4
ポアソン分布とべき乗分布
べき乗分布
（スケールフリーグラフ）
P (k)
log P (k)
ポアソン分布
（ランダムグラフ）
k
log(k)
タンパク質ネットワークの解析
• タンパク質相互作用のネットワークもべき乗則
に従う（酵母の場合）
– 頂点：タンパク質
– 辺：相互作用の有無
• 次数５以下の頂点（全体の93%）
– ２１％程度が必須（生存に必要）
• 次数１６以上の頂点（全体の0.7％）
– 62％程度が必須
– 次数の高い頂点はハブと呼ばれ、重要な役割を
果たすものが多い
スケールフリーネットワーク構成法：優先的選択法
• 優先的選択法(優先的選択型成長モデル)
[Barabasi & Albert 1999]
– 別名： Rich-get-richer モデル
• 構成法（ほぼ、k -3 のべき乗則従うネットワークを生成）
– m0 個の頂点から成るグラフを構成する
– 以下のステップを必要なだけ繰り返す
• 現在のグラフに新たな頂点 v を追加する
• v から既存の頂点に、deg(vi)/(Σj deg(vj)) に従う確率で、ランダムに辺
を張る（全部で m 本の辺を張る）
• 参考：ランダムグラフの構成法
– N個の頂点を配置
– 以下の操作を辺の個数が指定の数になるまで繰り返す
• 任意の２頂点をランダムに選んでは辺を追加
ランダムネットワーク vs. スケールフリーネットワーク
ランダムネットワーク
スケールフリーネットワーク
2/6
2/6
4/14
3/10
3/10
2/6
2/14
4/14
2/10
2/10
2/14
2/14
優先的選択法の平均場近似による解析
• ki(t): 頂点 i の時刻 t における次数
• 時刻 t までに追加された辺の個数≒mt
ki (t ) mki (t )
• 時刻 t において頂点 i の次数が1増加する確率は t  2mt
• この微分方程式を条件 ki(ti)=m のもとで解くと
t
ki (t )  m 
 ti 
• 時刻 tn にネットワークが完成したとすると、
次数 k の頂点の生成時刻は、ki(tn)=k を解いて、
0.5
m2tn
ti  2
k
• ここで、k が１だけ増えると、ti がどれくらい減るかは、  2m2t
n
上の式を k で微分することにより、
k3
• よって、時刻が 2tnm2k -3 だけ異なると k が１変わる
• よって、次数 k の頂点は 2tnm2k -3 のオーダーの個数存在
ki(t)
k+1
k
m
 2m2tn
ti 
k3
m2tn
ti  2
k
tn
t
タンパク質相互作用推定
相互作用の種類
• 遺伝子間相互作用
– どの遺伝子が、どの遺伝子を、どのように制御する
か？
• タンパク質間相互作用
– どのタンパク質と、どのタンパク質が結合するか？
• 化合物-タンパク質間相互作用
– どの化合物と、どのタンパク質が結合するか？
• タンパク質-DNA間相互作用
– どのタンパク質が、DNAのどの部分に結合するか
？
ドメイン間相互作用に基づくタンパク質相互作用推定
• タンパク質はドメインとよばれる部品から構成されて
いると考えられる
• ドメイン間相互作用を直接計測するのは難しいか、一
部のタンパク質間相互作用は実験により計測可能
• 既知のタンパク質間相互作用データからドメイン間相
互作用を予測
• 未知のタンパク質間相互作用を、予測したドメイン間
相互作用から推定
上記以外にも、配列の共進化に基づく方法、遺伝子融合に基づく方法、
系統プロファイルを用いる方法など、様々な方法が提案されている。
タンパク質ドメインの例
D3
D1
D2
D4
D2
ドメイン間相互作用モデル
• タンパク質ペアが相互作用 ⇔ 少なくとも一つのドメインペア
が相互作用
ドメイン
A
B
C
D
タンパク質
X
Y
Z
ドメイン間相互作用の予測（例）
• 左側の３種類の相互作用データから、右のドメイン間相互作用
を推定
P1
P3
D1 D2
D1 D2
D1 D3
D3
D5
D5
D4
D4
D5
D6
P2
P5
D4
D7
D8
P4
D8
P4
D7
D2
D4
ドメイン間相互作用の確率モデル
• 確率モデル[Deng et al., 2002]
– どれか１組ドメインが相互作用すれば、
タンパク質どうしが相互作用
– 各ドメインペアの相互作用の確率は独立
– Pij＝１: タンパク質 Pi と Pj が相互作用
– Dmn＝１: ドメイン Dm と Dn が相互作用
Prob(Pij  1)  1 
Pi
Dm
Dn
Pj
(1 Prob(D
DmnPij
mn
 1))
確率モデルに基づく相互作用予測
• 既知の相互作用データから、
Prob(Dmn=1) を推定
• 未知のタンパク質配列ペアが与えられ
たら、Pfamなどのソフトによりドメイン
構成を推定
• 下式を用いて相互作用の確率を推定
Prob(Pij  1)  1 
Pi
Dm
Dn
Pj
(1 Prob(D
DmnPij
mn
 1))
アソシエーション法
• 既知データからのドメインどうしの相互
作用の確率を頻度に基づいて推定
• Imn: ドメインペア Dm, Dn を含むタンパ
ク質のペアのうち、相互作用しているペ
アの個数
• Nmn: ドメインペア Dm, Dn を含むタンパ
ク質のペアの個数
Im n
Prob( Dm n  1) :
Nm n
Pi
Dm
Dn
Pj
EM法
• 尤度を以下(L)のように定義し、それを極大化する一般手
法であるＥＭ法を適用
• fp: false positive rate, fn: false negative rate
• Pij: Pi と Pj が相互作用する確率
• Oij: Pi と Pj の相互作用が観測される確率
fp  Pr(Oij  1 | Pij  0)
fn  Pr(Oij  0 | Pij  1)
Pr(Oij  1)  Pr(Oij  1, Pij  1)  Pr(Oij  1, Pij  0)
 Pr(Pij  1)(1  fn)  (1  Pr(Pij  1)) fp
L   (Pr(Oij  1)Oij (1  Pr(Oij  1))1Oij
タンパク質ドメイン進化の
数理モデル
ドメイン進化の数理モデル (1)
異なるドメイン１個
からなる
N0 個のタンパク
以下をn 回繰り返す:
a) 確率 1-a で新たなドメインからなるタンパク質１個を生成
(突然変異に対応)
b) 確率 a で、どれか１個のタンパクを選び、そのコピーを生成
(遺伝子重複に対応)
（１個のタンパク質は１個のドメインだけから構成されると仮定）
ドメイン進化の数理モデル(2)
遺伝子重複
突然変異
確率 1-
a
確率
a
モデルの
解析
突然変異
遺伝子重複
a
1-a
n 回繰り返し
a ~ 1.0
• i : i 種類目のドメイン
• ki : i 種類目のドメインから成るタンパク質の個数
t
ki  c 
 t0 
dki
ki
a
dt
t
Q(k )  k [ 1(1/ a)]
Q(k): コピーを k 個持つタンパク質の頻度
a
Q(k)の説明
ドメインの種類
1
2
3
4
5
6
タンパク質の種類
k1  1, k2  3, k3  2, k4  2, k5  2, k6  1
Q(1)  62 , Q(2)  63 , Q(3)  13 , Q(4)  Q(5)    0
優先的選択型成長モデルとの比較
• 類似点
– ドメイン i を持つタンパク質の個数 ⇔ 頂点 i の次数
– ドメイン i の重複 ⇔ 頂点 i の辺の追加
– 突然変異（新規ドメインの追加） ⇔ 新たな頂点の追加
• 相違点
k [1(1/ a)] vs. k 3
Q(1)=3
Q(2)=1
Q(3)=1
1-a
a
遺伝子重複
突然変異
辺の追加
a ~ 1.0
新規頂点
タンパク質相互作用ネットワーク
の数理モデル
Duplication-Divergenceモデル
• 以下のメカニズムに従ってネットワークが成長
Duplication: ある頂点がランダムに選ばれて、そのコピーが生
成される。もとの頂点に接続する辺も全てコピーされる。
Divergence: コピーされた辺はそれぞれ同確率で有効となる。
１本も有効となる辺がなかった頂点は削除される。
duplication
divergence
でも、実際に進化するのはネットワークでなく、配列
ドメイン間相互作用に基づくネットワークモデル
• ドメイン間相互作用モデル＋
ドメイン配列の進化モデル
（これまで説明したモデルの組み合わせ）
モデル
• 突然変異と遺伝子重複に基づくモデルにより、
タンパク質配列が生成
• ２個のドメインの相互作用確率は一様ランダム
• ２個のタンパク質が相互作用⇔対応するドメイ
ンが相互作用
モデルの解析
• ランダムに選ばれた1個のドメインペア (A,B) のみが相互作用
すると仮定
• ドメイン X からなるタンパク質の個数を nx とする
• k 個のコピーを持つドメインの個数は
k
(1(1/ a))
k

• よって、コピーが x個, y個であるようなペア (A,B) が選ばれる
確率は x   y 
• その場合、次数が x のタンパク質が y 個あることになる
• よって、次数が y であるようなタンパク質の個数の期待値は
Pr(nB  y)  E[nA ]  y
 


x  x dx 
x1
N個（≪n）のランダムペアの場合も同様
1
 2
y

次数分布  y 
まとめ
• タンパク質相互作用推定
• タンパクが相互作用 ⇔ ドメインが相互作用
• 既知データからドメイン間相互作用を推定
• タンパク質ドメイン進化の数理モデル
• 突然変異＋遺伝子重複
• タンパク質相互作用ネットワークの数理モデル
• ランダムなドメイン間相互作用＋上記モデルの組
み合わせ

スケールフリーネットワーク

Transcript スケールフリーネットワーク

Directory