S - 東京大学

Download Report

Transcript S - 東京大学

DNAコンピューティング
東京大学大学院総合文化研究科広域科学専攻
陶山 明 (Suyama Akira)
[email protected]
03-5454-6528 (tel/fax)
コンピュータとは
(1) 入力を受け取り、
(2) あらかじめ決められた手続きにしたがって処理し、
(3) その結果を出力する
装置である。
手続きは一通りではなく、書き換えが可能である。
Flynnの計算機アーキテクチャの分類
SISD (single instruction stream over a single data stream)
von Neumann sequential computer
MISD (multiple instruction streams over a single data stream)
systolic arrays, special-purpose parallel computers
SIMD (single instruction stream over multiple data streams)
vector computers, special-purpose parallel computers
MIMD (multiple instruction streams over multiple data streams)
general-purpose parallel computers
生命体はMIMD型の分子コンピュータである
生命体
Life Cycle of Bacteriophage T4
部品・反応
分子コンピュータ
分子コンピュータの木
コンピュータテクノロジー
超並列計算機
バイオテクノロジー
バイオインフォマティクス
ゲノム科学
ゲノム創薬
遺伝子診断・医療
分子進化工学
ナノテクノロジー
分子エレクトロニクス
分子機械
超並列性、超大容量メモリ、自律性、頑健性、進化性
分子の直接入出力が可能、低エネルギー消費
分子反応による評価関数の計算が可能
DNA分子は分子コンピュータ素子に適している
設計
塩基配列により計算反応を設計する
ことができる。
供給
任意の塩基配列をもつDNA分子を
安いコストで短期間に大量に合成
することができる。
安定性
RNA、タンパク質分子に比べてはる
かに安定である。
DNAコンピューティングによる
超並列計算を利用した
NP完全問題の解法
DNAコンピュータのメモリ容量と計算速度
DNA溶液(100 mM × 1 ml)
に含まれるDNA分子の数
6 × 1016 分子
メモリ容量
DNA1分子で1文字をコードすると
60,000,000 Gバイト
命令実行速度
102 秒で1命令を実行すると
6 × 1014 命令 / 秒
高性能コンピュータの世界ランキング(2000年6月)
Leonard M. Adlemanの論文 (Science 266, 1021-1024, 1994)
NP完全問題とは
NP(Nondeteministic Polynomial)問題は、 次の2つの特徴
をもつ問題である。
(1) ある解の候補が問題の条件を満たす解であるか
否かは簡単に確かめることができる。
(2) しかし、解の候補数は問題のサイズに対して指数
関数的に増大するので、ひとつひとつ候補をしらみ
つぶしに調べるという単純な方法では時間計算量
は指数関数的に増加してしまう。
NP完全問題はNPのクラスの問題の中で最も困難な問題
である。
三和積型命題論理式の充足可能性判定問題(3SAT)
n  variable
and m  clause 3 - CNF SAT
( u 1  v1  w1 )  ( u 2  v 2  w 2 )  ...
 ( u i  v i  w i )  ...  ( u m  v m  w m )
where
u i  { x j ,  x j },
v i  { x j ' ,  x j ' },
(1  j  j '  j ' '  n )
w i  { x j '' ,  x j '' }
100変数の3SATを解くのに要する時間
割当の総数 = 2100 = 1.3 × 1030
1秒間に109の割当について
命題論理式充足可能性を判定
すべての割当の充足可能性を
判定するのに要する時間
2100 / 109 =
=
=
=
1.3 × 1021 秒
3.5 × 1017 時間
1.5 × 1016 日
4.0 × 1013 年
NP完全問題の例
・
・
・
・
・
・
・
・
・
・
・
ブール式の充足可能性判定問題
ハミルトン閉路問題
巡回セールスマン問題
ナップザック問題
箱詰め問題
整数線形計画法
集合分割問題
部分集合和問題
直和集合被覆問題
ジグソーパズル問題
時間割作成問題
・
・
・
・
・
・
・
・
・
・
スケジューリング問題
最長道問題
部分グラフ同型問題
3彩色問題
頂点被覆問題
独立集合問題
クリーク問題
全域部分グラフ問題
最小共通語問題
2次合同式問題
ハミルトン経路問題(HPP)
4
3
1
0
6
2
5
DNAによるグラフのエンコード
Adlemanによるハミルトン経路問題の解法
解の選択と抽出
解の候補をすべて含むプールの生成
4
NP完全問題
PCR
3
0
HPP
O0
1
6
2
O2-3
O6
5
O3-4
PAGE
AF-SEP
………………..
GTATATCCGAGCTATTCGAG CTTAAAGCTAGGCTAGGTAC
CGATAAGCTCGAATTTCGAT
O3
O1
HP
O2
O3
O4
O5
PCRによるDNA計算の結果の確認
クリーク問題の解法
Q. Quyang et al., Science 278, 446-449 (1997).
3SATの解法
Q. Liu et al. Nature 403, 175-179 (2000).
騎士問題の解法
D. Faulhammer et al., Proc. Natl. Acad. Sci. USA 97, 1385-1389 (2000).
3SATの解法
K. Sakamoto et al. Science 288, 1223-1226 (2000).
クリーク問題の解法
D. T. Chiu et al., Proc. Natl. Acad. Sci. USA 98, 2961-2966 (2001).
NP完全問題における組合せ論的爆発(スケール問題)
変数の数( 3SAT ) プールの大きさ
10
20
30
40
50
60
70
80
90
100
200
1.0x10 3
1.0x10 6
1.1x10 9
1.1x1012
1.1x1015
1.1x1018
1.2x1021
1.2x1024
1.2x1027
1.3x1030
1.6x1060
DNA量(g)
(15塩基長変数)
8.4x10-17
1.7x10-13
2.6x10-10
3.6x10 -7
4.6x10 -4
5.7x10 -1
6.8x10 +2
8.0x10 +5 地球の質量
9.2x10 +8
27
6.0x10
1.0x10+12
2.6x10+42
生物はどのようにしてNP完全問題を解いているか
タンパク質分子構造の
漏斗状エネルギー曲面
15残基のアラニンからなる
ポリペプチド鎖構造のエネルギー曲面
解の候補の部分生成と選択の繰り返しによる解法
初期解プール
k ステップの部分解の選択と抽出
s
s
k ← k +1
k <必要なステップ数
No
解
Yes
k ステップの部分解の候補を
すべて含むプールの生成
s
s
s
s
k-1 ステップの部分解
ダイナミックプログラミングの手法を用いた
3SATを解くためのアルゴリズム
(A) 前処理
3和積形命題論理式 F のすべての節において、3つのリテラルを昇順に並べる。
(B) 初期化
S を論理変数 x1 と x2 に対するすべての割当の集合とする。
(C) メインループ
以下の手続きを k = 3 から k = n まで繰り返す。
• F において3番目のリテラルが xk (xk) である節のみを3番目をリテラルを除いて

積結合させた2和積形命題論理式をFT (FF) とする。

• ST と SF を空集合とする。
• S に含まれるFT を充足するすべての部分割当 p を ST に加える。
• S に含まれるFF を充足するすべての部分割当 p を SF に加える。
• FT (FF) が節をもたないときは、S に含まれるすべての部分割当 p を ST (SF) に
加える。
• ST (SF) に含まれるすべての部分割当 p に xk = 1 (xk = 0) を付加する。
• S を ST と SF の和集合とする。
•(D) 結果
もし S が空集合でなければ、3和積形命題論理式 F は充足可能である。
そうでなければ充足可能ではない。
3SATの例題
Problem
:
10 clauses
6 variables,
( x1  x 2  x 3 )  (  x1  x 2  x 3 ) 
(  x1   x 2  x 3 )  ( x1  x 2   x 3 ) 
( x1   x 2   x 3 )  (  x1  x 2   x 3 ) 
(  x1   x 2   x 3 )  ( x1   x 2   x 4 ) 
( x1   x 2  x 5 )  ( x1  x 3   x 6 )
Solution
:
YES
F
T
F
F
T
F
{X1 X 2 X 3 X 4 X 5 X 6 }
ダイナミックプログラミング法により
3SATを解くDNAコンピュータプログラム
function
dna 3 sat ( u 1 , v1 , w1 , ... , u m , v m , w m )
function
begin
getuvsat
(T , u , v )
begin
T2  { X X , X
T
1
T
2
F
1
T
2
T
1
X , X X
F
2
, X
F
1
F
2
X };
T u  get (T ,  X u );
T
for k  3 to n do
F
(T k 1 , T w , T w );
for j  1 to m do
if w j  x k then
T
F
w
F
T u  get (T ' u ,  X u );
F
T
amplify
T ' u  get (T ,  X u );
T
T
T
v
T
T
F
 get (T
F
u
F
, X
T
v
T
/* can be omitted * /
);
 merge (T , T );
T
u
T
v
T
 getuvsat
return T ;
F
w
(T , u j , v j );
end
end
if w j   x k then
T w  getuvsat
T
T
(T w , u j , v j );
end
end
T
T
 append (T w , X k , X k 1 );
T
T
T k  merge( T , T );
T
end
return detect (T n );
end
F
T /F
T
F
 append (T w , X k , X k 1 );
F
F
T /F
変数の数をn、節の数をmとすると、
各基本コマンドの実行回数は
(n-2)×(amplify+2×append+
merge)+m×(3×get+merge)
である。
DNAコンピュータの基本コマンド
get (T, +s), get (T, -s)
試験管T の中から部分配列s を含む(含まない)DNA分子
を取り出す。
append (T, s, e)
試験管T の中にある末端条件eを満たすDNA分子の端に
配列sを付加する。
merge (T1, T2, …, Tn)
試験管T1, T2, …, Tn の中にあるDNA分子を一緒にする。
amplify(T, T1, T2, …, Tn)
試験管T の中にあるDNA分子を試験管T1, T2, …,Tnに(濃
度を変えないで)分注する。
* 末端条件eを満たすDNA分子の端から配列sを除去するコマンドremove(T, s, e)
を加えると、ユニバーサルチューリングマシンとしての計算能力が生まれる。
基本コマンドを実現するDNA分子反応操作
annealing
annealing
and
ligation
s
annealing
Taq DNA ligase
s
PCR
immobilization
and
cold wash
immobilization
s
s
s
s
hot wash
cold wash
s
get (T, -s)
hot wash
T
e
s
s
s
amplify (T, T1, T2, …Tn)
append (T, s, e)
get (T, +s), get (T, -s)
e
immobilization
and
cold wash
hot wash
and
divide
T1, T2, …Tn
get (T, +s)
最大部分割当数
最大部分割当数
平均値
部分割当数のその大きさに対する依存性。少なくとも最
大部分割当数に相当するDNA分子が計算に必要である
。最大値と平均値は、31変数、133節からなる2,000例の
3SAT問題を用いて計算した。
DNA計算で必要なDNA分子の数(=最大部分割当数
)の分布。31変数、133節からなる20,000例の3SAT
問題を用いて計算した。
組合せ論的爆発による計算不能の回避
1.0×10 +9 kg
4×1016
33 mg
1×1015
8.2 mg
4×1013
0.033 mg
n = 100
ダイナミックプログラミングによるDNA計算で必要なDNA分子の数の最大値と平均値。
n = [20, 31]変数、m = [4.3, 4.7]×n 節からなるそれぞれ2,000例の3SAT問題を用いて計算した。
正規直交化塩基配列の設計
正規直交化塩基配列を用いると、DNAハイブリッドの安定性の差を利用して符号を識別す
ることができる。正規性によりすべての符号のDNAハイブリッドは一様な安定性をもつ。そ
の最大プールを求める問題はNP完全になるので、以下のように貪欲戦略で大きなプール
を生成した。22~25塩基長の場合、約300個の正規直交化配列を含むプールが得られた。
フィルタ1
• S を空集合とする。
• 0から422-1の一様乱数を発生させDNAの塩基配列に変換する。もしその配列が条件3を満足するな
らばS に加える。この操作をS が空でなくなるまで繰り返す。
• 新たに一様乱数を発生させ塩基配列pを得る。pが条件3を満たしS∪{p}が条件1から5を
満たすなら、pをS に加える。この操作を十分な数の塩基配列が得られるまで繰り返す。
条件1: 2つの塩基配列Xib とXjb (i ≦j )が連続してα個以上の塩基を共有しない。
条件2: Xib とXjb (i < j )が連続してα個以上の塩基を共有しない。
条件3: 塩基対スタック法で計算したTaq リガーゼバッファ中での融解温度が63±1℃である。
条件4: Xib の3’末端とXjb の5‘末端(i ≠j )が連続してα/2個以上の塩基を共有しない。
条件5: Xib とXjb (i ≠j )の5‘末端が連続してα/2-1個以上の塩基を共有しない。
*塩基配列の長さが22塩基の場合、α=8である。
フィルタ2
• フィルタ1で得られた塩基配列について、ダイナミックプログラミングによる2次構造予測プログラム
により自己2次構造の安定性を計算し、安定な自己2次構造を形成するものを取り除く。
• 残ったものについて同様にミスハイブリッドの安定性を計算し、平均して安定なミスハイ
ブリッドを形成するものを取り除く。
NN (nearest-neighbor) 法によるTmの計算
Unified oligonucleotide H0 and S0 in 1 M NaCl
Tm   H
0

/  S  R ln C T / 4 
0

Sequence
H0 (kcal/mol)
AA/TT
-7.9
AT/TA
-7.2
0

 S oligomer , Na  
TA/AT
-7.2
0
-8.5
 S  unified oligomer , 1M NaCl   CA/GT
GT/CA
-8.4

0 . 368  N  ln Na 
CT/GA
-7.8
GA/CT
-8.2
CG/GC
-10.6
GC/CG
-9.8
GG/CC
-8.0
Init. w/term. G-C
0.1
SantaLucia,J.Jr.
2.3
Proc. Natl. Acad. Sci. USA, 95, Init. w/term. A-T
Symmetry correction 0
1460-1465, 1998.
S0 (cal/K·mol)
-22.2
-20.4
-21.3
-22.7
-22.4
-21.0
-22.2
-27.2
-24.4
-19.9
-2.8
4.1
-1.4
ダイナミックプログラミングによる最安定2次構造の計算
Zukerのホームページ
http://www.ibc.wustl. edu/~zuker/
Suyama, A.
“RNA secondary structure and
its relation to biological functions.”
Proc. of Taniguchi Symposium,
162-172, 1985.
(複数の1本鎖核酸分子の複合体の
最安定2次構造計算への拡張)
正規直交化性の確認
All
D11
D12
D13
D14
D15
D16
D17
D18
D19
D11
D21
相補標的DNA濃度:
10 nM, Cy3-labled 25-mer DNA
ハイブリダイゼーション条件:
45 ℃, 1 hr in 5×SSC, 0.2%SDS
洗浄条件:
1×SSC, 5 min + 0.1×SSC, 10 min
D12
D13
D14
D15
D16
D17
D18
D19
get命令の実行効率とエラー率
F
50 pmole
X
F
1
T
-s
R FU
annealing
T
X1 X 2
X1
A
M
+s
s
s
T
rX
19
20
21
T
2
22
23
24
25
26
-s 99±1%
e lu tio n tim e (m in )
120 pmole
immobilization
+s 12±3%
B
s
s
-s
R FU
A
T
X1 X 2
0.8 mg
M
+s
19
20
21
22
23
24
25
26
e lu tio n tim e (m in )
C
cold wash
TE at r.t.
get (T, -s)
hot wash B&W at 70℃
s
get (T, +s)
C
+s
M
R FU
B
-s 1±1%
-s
19
20
+s 88±3%
21
22
23
e lu tio n tim e (m in )
24
25
26
append命令の成功産物と失敗産物の熱安定性の差
failed
Fraction of Separated Hybrids
1
T
T
X 1 X 2 pX
0 .9
T
3
Taq DNA ligation buffer
p
{oligomer} = 0.75 mM
0 .8
X
0 .7
T
2
X
T
3
0 .6
Tm = 58.9℃
0 .5
successful
0 .4
0 .3
T
T
T
T
T
X1 X 2 X3
0 .2
0 .1
X2 X3
0
20
30
40
50
60
T (℃)
70
80
90
Tm = 76.6℃
append命令の実行効率とエラー率
T
A
R FU
0.5XB&W at 65℃
22
23
24
25
26
27
M
29
30
29
30
F
S
20
s
28
e lu tio n tim e (m in )
B
21
22
23
24
25
26
27
28
e lu tio n tim e (m in )
C
hot wash
0.5XB&W at 85℃
21
T
e
Ligation eff
S
X2 X3
s
C
D
T
T
43±4%
20
R FU
immobilization
and
cold wash
F
F
20
21
22
23
F 90±4%
S 7±1%
M
R FU
B
T
X1 X 2 X3
M
24
S
25
26
27
28
29
30
e lu tio n tim e (m in )
s
D
M
R FU
A
annealing
Taq DNA ligase
and
T
T
T
pX 3
X
X
ligation 1 2
e
s
e
at 55℃
e
s
T
T
X1 X 2
F
S
F
20
21
22
23
24
25
26
27
e lu tio n tim e (m in )
28
29
30
0%
S 35±5%
getとappendコマンドの効率とエラー
get
[%]
[%]
[%]
100
2.0
1.5
60
正解分子
[%]
100
80
80
append
2.0
伸長分子
1.5
60
1.0
1.0
40
40
不正解分子
0.5
20
0
0.0
0.01 M
0.05 M
0.1 M
0.2 M
未伸長分子
0.5
20
0
0.0
0.01 M 0.05 M 0.1 M
4変数10節の3SATにおけるシミュレーション
全正解分子 = 8.5%
全不正解分子 = 0.09%
効率÷エラー = 94
0.2 M
3SATの例題
Problem
:
10 clauses
6 variables,
( x1  x 2  x 3 )  (  x1  x 2  x 3 ) 
(  x1   x 2  x 3 )  ( x1  x 2   x 3 ) 
( x1   x 2   x 3 )  (  x1  x 2   x 3 ) 
(  x1   x 2   x 3 )  ( x1   x 2   x 4 ) 
( x1   x 2  x 5 )  ( x1  x 3   x 6 )
Solution
:
YES
F
T
F
F
T
F
{X1 X 2 X 3 X 4 X 5 X 6 }
Graduated PCRによる解の決定
T
Xk
F
Xk
or
PCR
T
or
F
X6
Reverse
primer
Forward
primer
(bp)
132
110
88
66
44
X6
x6  F
x6  T
x1
x2
x3
x4
x5
x1
T F
T F
T F
T F
T F
T F
error
× ○ ○ × × ○ × ○ ○ × × × correction
DNAコンピュータの
ハードウェア
ゲルを用いたDNAコンピュータ
ハミルトン経路問題を解くためのDNAコンピュータ素子
DNA oligomer
stop valve
pump
input
buffer1
buffer2
switching valve
output
drain
heater
actuator
クリーク問題を解くためのDNAコンピュータ素子
D. Von Noort et al.
Proc. of the 7th International Meeting on DNA-Based Computers, 128-137 (2001).
ハイブリッドDNAコンピュータの基本構成
CPU
半
導
体
主記憶
入出力
制御装置
プロ
グラム
キーボード
データ
ディスプレイ
プログラム
分
子
サンプル
データ
DNAチップ
DCA
ハイブリッドDNAコンピュータによるプログラムの実行
function
dna 3 sat ( u 1 , v 1 , w 1 , ... , u m , v m , w m )
begin
T2  { X 1 X
T
T
2
F
, X1 X
T
2
T
, X1 X
F
2
F
, X1 X
F
2
};
for k  3 to n do
T
amplify
[Instrument]
[Reset Counter] 0
[Home Position] 0
[MJ-Open Lid]
・・・
[Get1(0)]
[Get2(1)]
[Append(2)]
・・・
[Exit]
F
(T k 1 , T w , T w );
for j  1 to m do
if w j  x k then
T w  getuvsat
F
F
(T w , u j , v j );
end
if w j   x k then
T w  getuvsat
T
T
(T w , u j , v j );
end
end
T
T
 append (T w , X
T
k
T
F
 append (T w , X
F
k
T
F
T k  merge( T , T
T
F
,X
,X
T /F
k 1
T /F
k 1
X
X
T
k
);
F
k
);
);
end
return detect (T n );
end
Pascal/C-level
protocol-level
(1-1-4)
[MJ-Open Lid]
Do 2
_SEND
"LID OPEN"
Do
10
_SEND "LID?"
Wait_msec
500
_CMP_GSTR
"OPEN"
IF_Goto EQ 0 ;open
Wait_msec 1000
Loop
Loop
; Time out
End
;open
script-level
コマンドを自動実行するロボット
チップ装 着 アーム
磁気ビーズ
サーマルサイクラー
マイクロプレート
マグネット
・溶液の吸入吐出
・温度調節
・磁気ビーズの分離
getコマンドの自動実行
get (T, +s), get (T, -s)
annealing
s
s
immobilization
s
s
cold wash
get (T, -s)
hot wash
s
get (T, +s)
DNAコンピューティングの
バイオテクノロジーへの応用
DNAチップ
D N A In te g rated A rra y (D N A IA )
G e ne C h ip T M
NH 2
N
NH 2
NH 2
N
O
N
N
NH2
N
NH 2
HO
N
N
N
HO
N
H
O
P
NH
H
H
NH
H
N
H
O
N
H
NH 2
N
P
O
H
OH
H
N
H
H
H
O
O
P
N
H
O
H
P
N
H
N
H
O
N
H
N
NH2
H
O
H
P
N
H
H
O-
N
O
H
H
P
P
O
N
H
P
O
N
H
O
O
O-
P
H
H
O
H
O
O
NH2
H
O
N
HN
H
H
O
P
O
O
H
H
O
H
OH
H
OH
P
N
O-
H
O
H
H
H
H
O
H
O
P
H
O
O
O-
O
O-
O
H
O
O-
H
HN
H
O
H
H
O
H
O
O
HN
H
O
O
O
O
H
N
O
H
HN
H
H
O
H
O
H
O
O-
O
H
OO
O
H
P
N
O
O-
O
O
O
O
NH
H
P
P
N
H
NH
H
O
O
H
H
N
H
H
O
H
O-
O
O
O-
N
O
H
H
O
O
O
O
O
O-
H
O
N
H
N
H
O
NH 2
N
O
O-
NH 2
N
O
O
H
H
HO
NH 2
N
H
O
N
H
NH2
N
H
H
N
N
O
O
O
O
O
O
H
O
O
O
H
N
HO
N
P
H
O-
O-
H
O-
O-
F e a tu re
2 0~ 1 0 0 m m
M illion s of
ide n tica l DN A p ro be s
(sin gle -stra n de d
oligo n u cle o tide s)
p e r fe a tu re
A
T
1 0 3 ~ 10 5 fea tu re s p e r D N A IA
G
C
1 ~ 2 cm
DNAチップによる配列探索
NH 2
N
NH 2
O
N
NH
2
N
HO
O
O
N
N
H
NH
2
H
H
HO
H
O
O
O
N
H
O
N
H
H
H
O
H
O
O
N
P
O
O
O-
H
H
HN
H
O
H
O
P
O
H
H
O
O
O-
O
N
H
O
HN
H
O
P
O
O
H
H
O
O
P
O
N
O-
H
HN
H
H
O
H
O
H
O
O
O-
H
O
N
HN
H
H
O
P
O
O
H
H
O
H
O
N
O-
H
H
H
O
標的サンプル
P
O
H
H
H
O
H
O
O
P
H
O
O
O-
H
P
O-
O-
O-
20~100 mm
プローブ
ハイブリダイゼーションと洗浄
H
O-
DNAチップの作製方法
フォトリソグラフィとコンビナトリアル合成
X X X X X
A A G G G
X |X |X |X |X |
T T G G G
X |X |X |X | X |
T T C C C
|
|
|
|
|
OH OH X X X
A A G G G
OH |OH | X | X | X |
T T G G G
X |X |X |X | X |
T T C C C
|
|
|
|
|
X X
A A X X X
X AX A G
G
A |A |X |X G
X
T T G G |G |
X |X |X |X | X |
T T C C C
|
|
|
|
|
DNAチップ
点着による既合成DNAの固定
DNAチップによる遺伝子発現ネットワークの解析
状態2
D.E. Bassett, Jr. et al.
Nature Genetics 21, 51-55 (1999).
状態1
DNAチップによる乳がんの分子肖像画
C.M. Perou. et al.
Nature 406, 747-752 (2000).
DNAチップによる遺伝子多型解析
生活習慣病など病気との相関
薬剤効力、副作用との相関
病気の予防、診断
治療での利用
DNAチップは高密度集積センサー
DNAチップの機能は
DNA分子の
ハイブリダイゼーション反応を利用した
超並列の配列探索
しかし
探索配列は
固定で
プログラム不可能
対象遺伝子依存
高密度集積センサー
多種類のDNAチップの作製と
動作確認が必要
探索配列
(DNAプローブ)
DNAコンピューティングによるゲノム解析
DNA進符号化された
ゲノム情報
DNA/RNA分子がもつ
ゲノム情報
DNA/RNA分子反応による
計算処理
DNA進符号
DNAチップによる
処理結果の表示
処理結果の
DNA/RNA分子の出力
(DNAC)への
変換反応
ゲノムDNA、cDNA/mRNAなどの情報をDNAコンピュータで解析する場合、それら
の情報はまず最初に分子反応により正規直交化された塩基配列の並びである
DNA進符号に変換される。
DNA進符号で表現された入力情報は、DNAコンピュータのCPUがサポートする命
令を並べたプログラムにより処理される。
その結果はDNA進符号のビット列を表示するDNAチップにより出力される。出力結
果を逆変換して対応する分子を調製することも可能である。
遺伝子発現解析のためのDNAコンピュータプログラム
fu n ction gene_ex pression_profile (cD N A , a 1 , … , a m , A 1 , … , A m )
b egin
T a = {a 1 , a 2 , … , a m };
T A = {A 1 , A 2 , … , A m };
T in pu t = {cD N A };
T d cn = append (T a , T A , T in put );
T g ep = get (T d cn , T dcn );
am plify (T g ep , T 1 , T 2 , … , T n );
T d1 = {rD 1 1 , rD 1 2 , … , rD 1 n };
T d2 _k = {rD 2 k };
for k = 1 to n d o
T dcn_k = app end (T d 2_ k , T d 1 , T k );
for j = 1 to n d o
T d1 _j = get (T d cn _k , D 1 j ):
detect (T d 1_ j );
en d
en d
get ( T , + s ), get ( T , - s )
試 験 管 T の 中 か ら 部 分 配 列 s を 含 む (含 ま な い ) D N A 分 子
を取 り出 す 。
append ( T , s , e )
試 験 管 T の 中 に あ る 末 端 条 件 eを 満 た す D N A分 子 の 端 に
配 列 sを 付 加 す る 。
m erge ( T 1 , T 2 , … , T n )
試 験 管 T 1, T 2, … , T n の 中 に あ る D N A 分 子 を 一 緒 に す る 。
am plify( T , T 1 , T 2 , … , T n )
試 験 管 T の 中 に あ る D N A 分 子 を 試 験 管 T 1 , T 2 , … , T n に (濃
度 を 変 え な い で )分 注 す る 。
detect( T )
試 験 管 T の 中 に あ る DNA分 子 を 検 出 す る 。
DNAコンピューティングによる遺伝子発現解析
ED
double-stranded
DCNi
biotin
D 2 k(i)
D 1 k(i)
Ai
R ids i
ai
SD
Single Tube
E ncode
20min
S A m agnetic beads
cids i
ED
D 2 k(i)
target transcript i
SD
D 1 k(i)
SD
A m plify
ED
・・・
D1
60min
D2
P
D 1j
D 2k
(j = 0 ,1 ,… ,n -1 )
label
D ecode
D 1j
(j = 0 ,1 ,… ,n-1 )
universal D N A chip
100min
標的転写産物のID配列の設計
背景配列と標的転写産物
領域の情報
繰返し配列フィルタ
完全繰返し配列をID候補配列から除く
出現頻度フィルタ
背景配列全体のk(=7)-タプル頻度から標的断片に含まれる
w(=30)塩基長配列の出現頻度指標を計算し、出現頻度が低いこ
とが期待されるw塩基長配列をID候補配列として選ぶ
Tmフィルタ
Tmが均一なID候補配列のグループを生成する
2次構造フィルタ
安定2次構造を形成しないID候補配列を選択する
標的転写産物
のID配列
ハミング距離フィルタ
背景配列全体でID候補配列が標的部位にユニークであること、
すなわち、安定性の差が小さいミスマッチ・パターンをもつ部位が
他にないことを確認する
出現頻度フィルタ処理
FwH(i), FwL(i)
大腸菌K-12ゲノム: 4.6 Mb, 4,289 ORFs
ORF# i
単一のハイブリダイゼーション条件で同定できるORFの割合
大腸菌K-12ゲノム: 4.6 Mb, 4,289 ORFs
同定可能なORFの割合
1
0.8
±5℃
0.6
±2℃
0.4
0.2
±1℃
0
40
45
50
55
60
プローブのTm (℃)
65
70
Tmフィルタ処理
大腸菌K-12ゲノム: 4.6 Mb, 4,289 ORFs
TH1 = 58.8±2℃
(2,255 ORFs, 52.6%)
TmH(i), TmL(i)
TH2 = 52.8±2℃
(1,800 ORFs, 42.0%)
TH3 = 45.3±2℃
(229 ORFs, 5.3%)
TH4 = 38.9±2℃
(5 ORFs, 0.1%)
ORF# i
2次構造フィルタ処理
ΔG2ndH(i), ΔG2ndL(i)
大腸菌K-12ゲノム: 4.6 Mb, 4,289 ORFs
ORF# i
プローブ候補配列数の推移
Number of probe candidates
大腸菌K-12ゲノム: 4.6 Mb, 4,289 ORFs
ORF# i
ハイブリッドの安定性とミスマッチの位置の関係
PCRフィルタ
マルチプルPCRが行えるように以下のことを行う。
1.
PCR断片の長さが5塩基以上異なるものどうしを一緒
にしたプライマー・ペアのグループに分ける。
なお、グループの数は無闇に多くならないようにする
が、最少にすることは計算量の点で困難である。
2.
同一のグループに属するすべてのプライマーの3‘末
端同士の相補性を調べ、相補性が高い場合には別
のプライマー・ペアと入れかえる。
酵母ゲノムでのプローブ設計
A ccession #
sce:tR N A -V al-3
sce:Y D R 447C
sce:Y D R 450W
sce:Y D R 461W
sce:Y D R 471W
sce:Y D R 502C
sce:Y E L 034W
sce:Y E R 011W
sce:Y G L 259W
sce:Y G L 258W
sce:Y G L 225W
sce:Y G L 189C
sce:Y G L 147C
sce:Y G L 031C
sce:Y G L 008C
sce:tR N A -L eu-9
sce:Y L R 012C
sce:Y L R 044C
sce:Y L R 048W
T m class P C R 産 物 長 最 小 ハ ミ ン グ 距 離 O R F 内 位 置
3
60
7
10
1
68
2
140
2
187
3
223
2
76
6
35
2
203
4
97
2
95
6
955
2
129
5
305
3
143
8
606
2
92
4
342
2
145
4
449
2
63
9
766
2
157
3
37
2
119
3
436
2
181
3
225
3
116
7
2475
3
60
5
6
2
189
5
93
2
107
7
1436
2
141
6
431
塩基配列
tgtagcggctatcacgttgccttcacacgg
aaacaagattgctggttacactactcattt
acccaactcactacaaaatcccagcttggt
aaagaccagcagtgaaaagaaggacaacta
ctaaatctcatccattcggtcacgctttgg
tacatgtggacacctatggtacagctacaa
gatgaacatggacggtgacactaaggatga
ccaagctccactggtgccaagacctctgcc
aattacgaactcacggcaacattcactggg
gttcaactctaccgattatggcgttcaagt
tcatcagtggtgttgcatccgtcggtattt
aaggtagaggtcacgtcaaaccagtcagat
tgtcaggtaactctgtcgaagacgtttccc
gttaaggcccaaagaccaattaccggtgct
gctggtgccgtcttcgctgtcgacatcatc
ctggccgagtggtctaaggcgtcaggtcga
atcacctaccagcagtatcttcaactgcaa
gattcacggtccaaaggctcaatacaacga
tgctttgactgatttggactccccatctga
プローブのTm
47 ℃
53 ℃
59 ℃
64 ℃
71 ℃
T m class 最 小 ハ ミ ン グ 距 離 O R F 内 位 置
3
3
40r
1
1
178r
2
1
380r
2
5
81r
2
6
270r
2
5
1020r
2
5
404r
3
5
719r
2
4
404r
2
3
564r
2
2
799r
2
2
164r
2
2
525r
2
5
376r
3
5
2561r
3
9
36r
2
8
252r
2
5
1513r
2
2
542r
塩基配列
tccaaccgaggatcgaactcgggacctttg
aaatacctctaactggacccttttggattc
tgttgacctctaacacgcaaaccccagaag
ctaagcaataacacatgctgggtcccagaa
agtctctgtagatacaacgctcttgaaagc
tactaacacacctggtctcaagtcgaagtt
tcttcacccatagcggagatgatggtaacc
gcagctgcgacaacaccagcacccatacca
gaatttacccctataagagcggacagtgtt
aacggcctttagctgaatggcggtacaata
aagtaacacgaacacaccaaccggaacagt
ggcaaagcgtattcagggtagacagaagct
acccttgtgagaaacgtagataccgtccaa
aactttgagtaccagcagacttagcctttt
ccgatagaccagatccagacacggacgaca
tgaacccgcgcctccgaagagatcaggacc
atatgaccatgttgtaacgcgatcgaacca
tggtagcgactctgtgggtttcatagtcct
ctgtcgaccaaagcacctcttagtctcaaa
ORFの数(割合)
39 ( 0.6%)
1,055 (16.0%)
3,978 (60.2%)
1,515 (22.9%)
17 ( 0.3%)
タプル法での設計に要する時間
フィルタ
1~4
フィルタ5#
(ハミング距離)
ゲノム
サイズ
ORF数
大腸菌
4.6 Mb
4k
2時間
5日
(0.5日$)
酵母
12 Mb
6k
5時間
3週間
(2日$)
ヒトcDNA
30 Mb
30 k
3 Gbの1%
半日
9ヶ月
(3週間$)
* 500MHz Pentium CPU
#複数台のPCによる並行処理が可能
$10台のPCで並行処理を行った場合
マウスゲノムでのプローブ設計
対象配列
GenBankにあるマウスゲノムの塩基配列約4 Mb
(マウスゲノム3 Gbの約1/1000)
ワトソン・クリック両鎖の塩基配列
標的領域
移植断片対宿主病(GVHD)関連の48遺伝子およびエクソン
インターフェロンγ誘導型GTPase遺伝子ファミリ
9遺伝子
アクチビン遺伝子ファミリ
4遺伝子
ヒトPRCC遺伝子に相同
3個のEST
細胞外マトリックス蛋白質
7遺伝子
シグナル伝達関連
8遺伝子
哺乳類セプチン遺伝子ファミリ
17遺伝子/exon
各標的遺伝子の3‘末端から300塩基長の領域
(300塩基長に満たない場合は標的遺伝子全体)
*東京大学大学院医学系研究科徳永勝士研究室との共同研究
Tmフィルタ処理
マウスGVHD関連48遺伝子
1 (2%)
14 (30%)
33 (68%)
プローブ配列候補数の推移
マウスGVHD関連48遺伝子
マウスGVHD関連遺伝子のプローブ配列
(PCRプライマー・ペア表示)
ge n e #
le n gth (P C R )
probe T m
0
70
62 ℃
tga gaac tttttc tc c c tc c c tgac aaggc
forw ard prim e r se qu e n c e
g gggac agg gtaagg gtatggc tc aac tc c
re ve rse prim e r se qu e n c e
1
105
62 ℃
atc tgattc atc aggc taaggagc g g gagt
g ggc c c tagaatc c atatttggc ttg ggtc
2
164
62 ℃
tc c c tatgc c tagac tac tttc gtc c ac c c
ac gc ggc attc ac aac tgaac aaaac ggag
3
222
54 ℃
agagata ttaaagagaaac c ataactgg gc
c tc ttatttac tac tgc atgtggc agg ata
4
117
54 ℃
tttgc tggttgtatgtac atac c tatc tat
aac ac tac atgtatgttac atac aatgc at
5
63
75 ℃
gc c gg gc gagc gg gg tgg ggatgc g tgagc
c tg gc c ggc c c ac ggagaac c c gcgc c c aa
6
131
54 ℃
g gaatttataatg ttac gc gttgatac atg
tttc ac ggattttc tgtac ac ttgatttgg
7
187
54 ℃
c tattttattttagg tgaatc tg gac tg gg
ac c ac tac tttgttc tatgtc aac ataac t
8
141
54 ℃
ac ataattaac atgtac aac gatgactc tt
tc ttac c aattac tattatc c ac tgc atc t
9
249
54 ℃
gc c tg ttatc gac tac attgatag taaatt
tg ttttataaatg ac c tagttc c gtgtac t
10
170
54 ℃
ac tatatgtttc agac ttaaac c attggac
c agttc g ggaac ac gtaagttaatta attc
11
65
54 ℃
c tg gttaagaagataaagg taggttc attt
ac aac tggaaggc tc aaac attttaatgtg
12
141
54 ℃
atc ac tttattttatag gac c gtttac c tc
taaattatgc ac tgaaaagaac c ttac c tt
13
-
-
gtgaac attgtgatttc ac aattc taagaa
-
14
120
54 ℃
c agc ttac c aagtac gtatataac tttc tc
c tc ttatagagaatc g tg gtc c aaatattc
15
195
54 ℃
ac c ttaatgattattc c taaatgttg g tgg
gac agac tgc taattaaac tgattac c tc t
16
160
54 ℃
ac atttc ttatgattc tc atttagc tc c ag
aagagttc tgttgc tc taaaatac gc tgtt
17
76
54 ℃
tc c tttaac tc c c tttttac ac tttatg ga
atttgc c tagaaatgatc tac aaatgc att
18
60
54 ℃
agttttac tgc ttttgc taac agatac ttg
ac aagtac aagttac ttc ttagtgaaagag
19
259
54 ℃
agc c attgc tttattgtatagttc c aataa
ttaaac ataaaaaaat gc caagtgttgc gc
20
75
54 ℃
aaaatgc tgtatttatg ttgaac taaagc c
c ac tgac gttttaaac c atttaatagaggt
21
70
54 ℃
g gatttgttgc tagaaatgaaac gttg aaa
aagc ttac aggtttatta gtg gtac gtgtg
22
143
54 ℃
gtaac tttagc ac tgttgaaac ttaatgtt
c atc c tatgtgaaatc ac tgc gtattagc a
23
151
54 ℃
tac tg ttac atataatggc tc tttg tttgt
c ac aac catgttagc gtgtta taaacagt
24
122
54 ℃
tg ggac c atatatatc tgagc c c c c cgagt
c c c atc gggac taggc taaaaatc gtgc c c
25
151
62 ℃
taaggac ataagtgagaaagttgc gg ttta
g gtg gttaaaaac attaaatagatgatgg g
26
267
54 ℃
gttc ttatggtttg gtc tggga tc aatagg
c tg ggaaaaattgataaataac aaac aggt
27
86
62 ℃
tga ttg ggattgc gc agtaaac attc c c tg
c agattac agtttaatgg tttgagg gtagc
28
276
62 ℃
tg tgatattc c c c aatacc gc c tgtc c tc g
gaatag gaaaac c caattggaac gc gggaa
29
142
54 ℃
ac ac tttc tc c ttc taagagttttaga atg
agc aaaagaaagataaaaatgaagg ttg gt
30
86
54 ℃
c atgc atgaattgttttttgc tc atac c c t
gtgg tatgttattgc tgac tattatc a aga
31
84
62 ℃
agaagtag gaatc agagc c c ac tc ggc tga
c gtagc c aac agac tttttattgg gc tgg g
32
113
62 ℃
tc tatttc tc agc gtg tgc agtgaac c tgg
tg gatg gaac gac tc gggc ac tgttg tc at
33
92
62 ℃
agc c c ttagtgc attc aggc ttag gc tc c c
ac c agtggac agagtgagaggata g c atgt
34
308
62 ℃
ttggaatatagaaattttg tttttg ggc tg
g gaac c gac tttattgtttc agagga aaat
35
142
54 ℃
tc c tatattc aac tgtaatagc c c gttc c t
g ggaaaagagttttatttaaac a tgc atc a
36
85
62 ℃
c tc c c ttagtc aac tatgtaatc tac tc tg
ac ac taaggc atatc atc gtggaata ggaa
37
222
54 ℃
c c ac gc gggtgac atac attttatattttc
gtac aatgtaaagac aatgg tagc aaatga
38
66
62 ℃
aagagaac c gaac c ggttaggatag c ggc g
ttc c tc agaatc tgaatc gc c c ttc tgc ag
39
92
54 ℃
gc tattgc tac ttga ttgaaatagttg c c t
gtc c aagttac tattac atggtttgatac t
40
255
54 ℃
tg tac aattgtta ttg gttgagg tc ac aaa
aaac aaaaaaaatac aatc aggtactgtc c
41
266
62 ℃
agagag tgg tac tgac ttc c c tatc c c tgc
gc agg gatataaggc gaac tg gtag gagc t
42
82
62 ℃
c tgc tc c tagag tc gc c aggtc c c agagaa
atatttttttc ttc attttgc c ac tgtc tt
43
278
54 ℃
agg tagatg ttc taaac aatc c ttc gagtg
tg tac atgaac gtaaaatac ttaagac agc
44
78
54 ℃
aac c tgtac c ttttttaatttgc aaaaaac
tc attta taatc agatggc agttgg gtata
45
64
54 ℃
gtgaaac c tc ac tc ac ggc c ac attgagtg
gc tc tac ac tac tataaac cagc c cggagc
46
95
54 ℃
c c atac gtttc tc c tgtataatc ttaagtg
attttgc aagtta gttaaaagttgc c tgtt
47
90
54 ℃
g gac taac aaac tttaaaaggtc c atc tag
aaaatgttc c c aagtgagttagaaaaggtt
プローブの特異性(Mouse Genomic DNAのPCR)
template:
mouse BALB/c
genomic DNA
~amol
primer:
0.2 mmol each
PCR cycle:
95-65-72 ºC
40 cycles
プローブの特異性(Mouse Total RNAのRT-PCR)
template:
total RNA from liver cells
of GVHD mouse BALB/c
1.58 ng/ml
primer:
0.2 mmol each
RT:
50 ºC, 30 min.
PCR cycle:
95-65-72 ºC, 30 cycles
allo day 1
DNAコンピューティングによる遺伝子発現解析
ED
double-stranded
DCNi
biotin
D 2 k(i)
D 1 k(i)
Ai
R ids i
ai
SD
Single Tube
E ncode
20min
S A m agnetic beads
cids i
ED
D 2 k(i)
target transcript i
SD
D 1 k(i)
SD
A m plify
ED
・・・
D1
60min
D2
P
D 1j
D 2k
(j = 0 ,1 ,… ,n -1 )
label
D ecode
D 1j
(j = 0 ,1 ,… ,n-1 )
universal D N A chip
100min
標的合成DNA分子の特異的検出
no target all targets
Input:
300 pM gene specific sequences of 30-mer
Hybridization & Washing:
Cy3 : 100 pM each of D1-complements
Cy5 : output
hybridization : 5×SSC, 0.2%SDS, 45 °C, 1 hr
washing
: 1×SSC, 5 min; 0.1×SSC, 10 min
lower Tm group
IGTP
TGTP/Mg21 Nedd5
PRCC
vitronectin Mn-SOD
activin
beta C
標的合成DNA分子の定量的検出
Input:
gene specific sequences of 30-mer
Hybridization & Washing:
Cy3 : 100 pM each of D1-complements
Cy5 : output
hybridization : 5×SSC, 0.2%SDS, 45 °C, 1 hr
washing
: 1×SSC, 5 min; 0.1×SSC, 10 min
PCR condition:
25 cycles, annealing at 65 °C
0.2 mM SD-ED primer pair
45
p r o d u c t y i e ld ( p m o l)
40
35
30
25
IG T P
20
L R G -4 7
15
10
5
0
10
1
0 .1
0 .0 1
0 .0 0 1
ta rg e t c o n c e n tra tio n (p M )
300 pM
30 pM
3 pM
300 fM
30 fM
0
GVHRマウス肝細胞の発現遺伝子解析
Input:
2 mg of total RNA of GVHR
mouse liver cells on day one
after donor cell transfer
Target preparation:
total RNA
RT with specific primers
RNA hydrolysis in alkali
target sequences
for encode process
GEP
Specificity
Expression Level
(semi quantitative RT-PCR)
[RU]
IGTP
3.0 0.9
TGTP
2.8 0.1
Nedd5
1.7 0.3
PRCC
2.3 0.8
vitronectin 3.2 0.3
Mn-SOD 0.6 0.2
activin
5.4 0.7
beta C
30-cycle PCR
with TGTP/Mg21
primer pair before
Encode process
非発現遺伝子情報をもつDNA分子
ED
DCNi
DCNi
biotin
ai
SD
Ai
S A m agnetic beads
ED
target transcript i
DCNi
SD
SD
DCNi
ED
DCNi
DCNi
unexpressed genes
DCNk* DCNk
DCNk* DCNk
DCNk*
expressed genes
DCNi
DCNi
expressed genes
DCNi
DCNk*
unexpressed genes
演算用DNA分子による遺伝子発現パターンの判定
( DCN 1   DCN 2 )  (  DCN
演算用
DNA分子
M
DCN1* DCN2
S
M
3
 DCN 4 )
DCN3 DCN4*
DCN3
発現
DCN1
発現
DCN4
発現
DCN2*
非発現
M
DCN1* DCN2
M
S
M
DCN3 DCN4*
DCN3
検出
Whiplash(鞭打ち)PCRによる自律的DNA計算
K. Komiya et al., LNCS 2054, 17-36 (2001).
自律型分子コンピュータによる生命体の診断・治療
診断・遺伝子治療用
分子コンピュータ素子の抽入
SIMD型分子コンピュータ
による分析・診断
Life Cycle of Bacteriophage T4
入力データ分子の抽出
MIMD型分子コンピュータ
による分析・診断
分子コンピュータ素子の抽出と
診断・治療結果の取り出し
自律的計算
アモロファスコンピューティング
ヘアピンエンジンによるDNAコンピューティング
(a∨b∨c)∧(¬d∨e∨¬f)∧ … ∧(¬c∨¬b∨a)∧ ...
b
e
¬b
b
Sakamoto et al., Science, 2000
¬b
制限酵素による切断
exclusive PCR
アモルファスコンピューティングのための細胞間通信
DNAコンピューティングの
ナノテクノロジーへの応用
DNAタイルの自己組織化を利用した計算とナノ構造形成
E. Winfree et al., Nature 394, 539-544 (1998).
C. Mao et al., Nature 407, 493-496 (2000).
DNA分子ナノ糊
Science 279, 2043-2044 (1998).
C. A. Mirkin et al.
Nature 382, 607-609 (1996).
A. P. Alivisatos et al.
Nature 382, 609-611 (1996).
DNA分子ナノ電子回路素子
導線
半導体素子
E. Braun et al.
Nature 391, 775-778 (1998).
D. Porath et al.
Nature 403, 635-638 (2000)
DNA分子ナノマシン
分子モーター
Z-B
分子ピンセット
B-Z
C. Mao et al.
Nature 397, 144-146 (1999).
B. Yurke et al.
Nature 406, 605-608 (2000).
URL
日本学術振興会未来開拓研究推進事業
「分子コンピュータの理論と構築」プロジェクト
プロジェクトリーダ
東京大学大学院情報理工学系研究科
萩谷昌己教授
20001年3月終了
http://hagi.is.s.u-tokyo.ac.jp/MCP/
株式会社 ノバスジーン
2001年2月15日設立
http://www.novusgene.co.jp/
A. Suyama