Transcript 第2部 - 京都大学
集中講義(九州大学数理学研究院)
バイオ構造データに対する数理モデルと
アルゴリズム(2)
タンパク質進化の数理モデル
阿久津 達也
京都大学 化学研究所
バイオインフォマティクスセンター
内容
タンパク質ドメイン進化の数理モデル
タンパク質相互作用ネットワークの
数理モデル
マルチドメインタンパク質進化の数理モデル
研究の目的
タンパク質ドメインおよびタンパク質相互作用
ネットワークにおける各種分布の数理的説明
タンパク質相互作用ネットワーク:power-law [Jeong et al., 2001]
k種類のドメインからなるタンパク数: exponential [Koonin et al.,
2002]
k個のドメインからなるタンパク数: power-law [Koonin et al., 2002]
タンパク全体におけるドメインの分布: power-law [Wuchty, 2001]
進化に基づく数理モデルの構築
ネットワークそれ自体が進化するわけではない。進
化するのは遺伝子・タンパク質である。
タンパク質ドメイン進化の
数理モデル
J.C. Nacher, M. Hayashida and T. Akutsu: Physica A, 367, 538-552, 2006
タンパク質ドメイン
Domain: Well-defined region within a
protein that either performs a specific
function or constitutes a stable unit
3種類のドメインからなる
タンパク質
タンパク質ドメインの例
D3
D1
D2
D2
D4
タンパク質ドメイン進化の数理モデル
別々のドメイン1個
からなる定数個の
タンパク質
次のステップを n 回繰り返す
a) 確率 (1-a) で、新規なドメイン1個からなる新規なタンパクを生成
(MUTATION)
b) 上記が選択されなかった場合、1個のタンパク質をランダムに選んで、
そのコピーを生成 (PROTEIN DUPLICATION)
仮定:1個のタンパク質は1個のドメインから構成される
Model
(continued)
Mutation
Duplication of Protein
a
1-a
T times
a ~ 1.0
i : ドメイン i
k i : ドメイン i からなるタンパク質の個数
t i : ドメイン i が最初に生成された時刻
dk i
ki
a
dt
t
t
ki c
ti
PD (k ) k [ 1(1/ a)]
PD(k): k 個のコピーを持つドメインの頻度
a
As in
Barabasi &
Albert 1999
優先的選択型成長モデルとの比較
類似点
ドメイン i を持つたんぱく質の個数⇔ 頂点 i の次数
ドメイン i のコピーの生成 ⇔ 頂点 i への辺の接続
突然変異(新規ドメインの生成) ⇔ 新たな頂点の追加
相違点
k [ 1(1/ a)]
vs. k 3
PD(1)=3
PD(2)=1
PD(3)=1
1-a
a
Duplication
Mutation
new edge
a ~ 1.0
new node
タンパク質相互作用ネットワークの
数理モデル
J.C. Nacher, M. Hayashida and T. Akutsu: BioSystems, 95, 155-159, 2009
ドメインに基づくタンパク質相互作用モデル
[Sprinzak & Margalit 2001, Deng et al. 2002]
タンパク質が相互作用 ⇔ 相互作用するドメインペアが存在
ドメイン間相互作用
A
X
タンパク質間
相互作用
B
Y
C
D
Z
ドメインの進化モデルとドメインに基づく相互作用
モデルの組み合わせ
ドメインの進化モデル
PD (k ) k [ 1(1/ a)]
ランダムなドメイン間相互作用モデル
Pr(Di interactswith Dj )
ドメインに基づく相互作用モデル
タンパク質が相互作用 ⇔ 相互作用するドメインペアが存在
タンパク質相互作用ネットワークのスケールフリー性
PPPI (k ) k
[ 1(1/ a )]
数理解析
1個のドメインペアをランダムに選択
x 個のコピーを持つドメインAと、y 個のコ
ピーを持つドメインBが選ばれる確率は
x y
domain
A
domain
B
次数が y となるタンパク質の個数の期待
値は
K
P r(nB y ) E[n A ] y
1
y
x 2
2
K
1
1
x x dx
nA=x
=3
nB=y
=2
K 2 1
y
2
⇒ power-law分布
(しかし、中心極限定理によりドメインペアの個数が多い
と正規分布)
3 proteins
with
degree 2
マルチドメインタンパク質進化の
数理モデル
J.C. Nacher, M. Hayashida and T. Akutsu: BioSystems, in press.
ドメイン融合と内部重複 (1)
1. 内部重複
1個のタンパク質内にある1個もしくは複数のドメインが重複
2. ドメイン融合
2個のタンパクが融合
ドメイン重複
突然変異
内部重複
ドメイン融合
二種類の分布
k種類のドメインからなるタンパク数 ⇒ exponential
k個のドメインからなるタンパク数 ⇒ power-law
[Koonin et al., 2002]
A
ドメインの種類
4
B
ドメインの個数
A
3
C
2
B
A
A
1
B
B
C
1
2
3
重複、突然変異、融合のモデル化 (1)
Ni(t) : 時刻 t において i 個のドメインからなるタンパク質
の個数
pm : 突然変異の確率
pd : タンパク質重複の確率
pf : ドメイン融合の確率
(t )
1
(t )
1
dN
N
pm pd
dt
t
(t )
(t )
(t )
(t )
k 1
dNk
Nk
N k i N i
pd
pf
dt
t
t
t
i 1
重複、突然変異、融合のモデル化 (2)
dN1(t )
N1(t )
pm pd
dt
t
k 1
dNk(t )
N k(t )
N k(t)i N i(t )
pd
pf
dt
t
t
t
i 1
ni(t) =Ni(t) /t , ni = ni(t) for t→∞ と置くと
n1 pm pd n1
k 1
nk pd nk p f nk 1ni
i 1
重複、突然変異、融合のモデル化 (3)
母関数を用いると以下の厳密解を得る
nk
pm p f
2pf
(2k 2)! 4 pm p f
2 k 1
2 k!(k 1)! ( pm p f )
k
Stirlingの公式を用いると以下の近似を得る
( pm p f )
1
nk
2 p f (2k 1) k 4 pm p f
pm p f
nk はほとんど exponential distribution
k
内部重複のモデル化
(t )
k
dN
ps
dt
N
(t )
(k / r )
t
(t )
k
N
ps
t
ni(t) =Ni(t) /t, ni = ni(t) for t→∞ と置くと
nk ps n( k / r ) ps nk
l
ps
ps
n( k / r )
n( k / r l )
nk
1 ps
1 ps
ps
nk
1 ps
log r k
k
p
log r s
1 p s
nk : power-law
突然変異、融合、内部・外部重複すべての組み合わせ
dN1(t )
N1(t )
N1(t )
pm pd
ps
dt
t
t
(t )
k
(t )
k
k 1
(t )
k i
(t )
i
dN
N
N
N
pd
pf
dt
t
t
t
i 1
ps
N ((kt )/ r )
t
N k(t )
ps
t
厳密解を求めるのは困難
⇒ 計算機シミュレーション
まとめ
ドメイン進化の数理モデル
ドメインのタンパク全体にわたる分布: power-law
ドメインに基づく相互作用モデルとドメイン進化モデル
の組み合わせ
⇒ 相互作用ネットワークの次数分布: power-law
⇒ 既存モデル (e.g., duplication-divergence) より単純
マルチドメインタンパク質進化の数理モデル
⇒ k 種類のドメインからなるタンパク数: exponential
⇒ k 個のドメインからなるタンパク数: power-law
⇒ データベース解析とシミュレーション結果の整合性
⇒ 内部重複の重要性