DNA 的統計遊戲 - 東海大學應用物理學系

Transcript DNA 的統計遊戲 - 東海大學應用物理學系

Statistical Properties of DNA
Sequences
東海大學物理系‧施奇廷
2015/7/21
生物物理
生物學家最感興趣的：基因圖譜
Music of Life
將流行性感冒病毒之DNA
序列轉換成樂譜：
Z Curve
R. Zhang, and C. T. Zhang J. Biomol. Struc. Dynamics 11, 767-782.
核苷酸的三種特性



嘌呤（A, G） vs 嘧啶（C, T）
強鍵（C, G） vs 弱鍵（A, T）
氨基（A, C） vs 酮基（G, T）
什麼是「Z 曲線」？


對於任何一個DNA序列，若由第一個到第n個鹼
基中，A, T, C, G出現的個數各為 An, Tn, Cn, Gn
例如以下序列：AATTGCATCCCGAGG，則（ An,
Tn, Cn, Gn ）為：
 n=1：（1,0,0,0）
 n=5：（2,2,0,1)
 n=10：（3,3,3,1）
 n=15：（4,3,4,4）
什麼是「Z 曲線」？


接著定義三維座標 Rn=(xn, yn, zn)，其中xn, yn, zn定義為：
 xn=2(An+Gn)-n
 yn=2(An+Cn)-n
 zn=2(An+Tn)-n
以前述序列為例AATTGCATCCCGAGG ：
 n=1：（1,0,0,0）→ Rn=(1,1,1)
 n=5：（2,2,0,1) → Rn=(1,-1,3)
 n=10：（3,3,3,1） → Rn=(-2,2,2)
 n=15：（4,3,4,4） → Rn=(1,1,-1)
Z曲線的意義





xn=2(An+Gn)-n → xn>0 表嘌呤類較多，嘧啶類較
少
yn=2(An+Cn)-n → yn>0 表氨基類較多，酮基類較
少
zn=2(An+Tn)-n → zn>0 表弱鍵結較多，強鍵結較
少
若有一序列總長度為 N，則可以由以上定義算出
Rn（N=1,2,3……,N），並在三維空間中畫出軌跡
亦可將足標n視為「時間」，畫出x(n),y(n),z(n)
大腸桿菌之Z曲線
DNA Walk
C.K. Peng et al. Nature 356, 168 (1992).
Random Walk







什麼是「無規行走」（Random Walk）？
一維：丟一枚銅板，出現正面則向前一步，出現背面則向
後一步
二維：丟兩枚銅板，出現「＋＋」則向前、「＋－」向後、
「－＋」向左、「－－」向右
如果沒有作弊，平均而言，走過很多步以後，會回到原點
附近
但是不會剛好回到原點，而是在距離原點√N的範圍之內
寫成數學表示法：Y(N)=0± √N。若把標準差寫為 F(N)，
則 F(N)= √N 或 N0.5
利用電腦程式模擬看看：
DNA Walk



如果我們不用丟骰子的方式來決定往哪個方向走，
而是利用 DNA 序列來決定，結果如何？
一維 DNA walk 方法：依序讀入 DNA 序列，如果
讀到 C, T （嘧啶）則向前一步，如果讀到 A, G
（嘌呤）則向後退一步
二維 DNA walk 方法：四種核甘酸剛好對應四個
方向
麵包酵母菌第三及第八條染色體之一維 DNA Walk
麵包酵母菌第二條染色體之二維 DNA Walk
關於一維 Walker 的分析




比較三種「走法」：前兩種是我們前面介紹過的
Random walk 以及 DNA walk
第三種是 Fibonacci walk: 利用所謂的 Fibonacci
數列方法產生一個「假的」DNA 序列
由 G 開始→G 變成 GC→G 變成 GC，C 變成G
（GCG）→GCGGC→GCGGCGCG……
產生出來的序列再用 DNA walk 的方法去走，得
到下圖
DNA Walk (conti.)
 Fluctuations:
 Correlation:
F (l )  y (l )  y (l )
2
2
2
y (l )  y (l0  l )  y (l0 )
C (l )  u (l0 )u (l0  l )  u (l0 )
l
2
l
F 2 (l )   C ( j  i )
i 1 j 1
 Random
sequence and short correlated

sequence:
F (l ) ~ l with   0.5
 Long-range correlated sequence:
F (l ) ~ l  with   0.5
F(N)
N
關於一維 Walker 的分析（續）







由 F(N)=N 的行為看來，這三種序列有很大的不
同：
Random walk:  = 0.5
Human Ch22:  ~ 0.6
Fibonacci:  << 0.5
Random walk 裡面不含資訊（全是隨機亂數），
因此 =0.5 表示「資訊量最低」
Fibonacci 序列有嚴謹的規則，所以  偏離 0.5
很遠
DNA ?
“有點亂又不是太亂”
DNA Walk (conti.)
(a)
(b)
(c)
intron-containing b-cardiac myosin (● with a=0.67) and its cDNA
(○ with a=0.49)
intron-rich genes (● with a=0.62) and its intronless genes (○ with
a=0.49), see table
same as in (a) for longer distance
DNA Walk (conti.)
奇怪的是……


DNA 序列中有分 coding (gene) 以及 noncoding (junk, intron) 區域，我們很合理的猜測，
編碼區應該是「含有資訊」，而非編碼區是接
近亂數序列、不含資訊的序列
可是根據對編碼區與非編碼區分別計算  的結
果……
編碼區的  = 0.5，非編碼區的  ~ 0.6！
雖然還是搞不清楚原因，不過還是提供了一
個判斷編碼區或非編碼區的方法：
DNA 「剪不斷，理還亂？」





當 ≠0.5 時，表示這個序列有「long range
correlation」，也就是第 x 步會與第 x+N 步有關
DNA 的 ≠0.5，也就表示 DNA 序列存在某種規
則，but what ?
一個可能性：DNA 的電子傳導（S. Roche et al.）
DNA 的電子傳導性較 random sequence 好
DNA 的電傳性質是目前一個非常重要的問題
二維 DNA Walk 分析

Diffusion Coefficients of Two-Dimensional Viral DNA
Walks, T.-H Hsu and S.-L. Nyeo（楊緒濃，成功大學物理
系）, Phys. Rev. E 67, 051991 (2003).
Definition of Diffusion
Coefficient
Still an open question!
Linguistic Analysis
R. N. Mantegna et al., Phys. Rev. E 52, 2939 (1995)
Linguistic Analysis




Ref.: R. N. Mantegna et al., Phys. Rev. E 52, 2939
(1995)
Zipf law:

a
f 
R
Counting f, the frequency of occurrence of words in
a given text. f of each word is ordered from the most
frequent to the least one. The position of each word
in the ordered list is the rank R.
In nature languages, the Zipf law is satisfied with
ζclose to 1.
Linguistic Analysis (conti.)
“n-tuple” Zipf analysis instead of the
conventional one: the length of “word” is fixed
as n
 Natural language (English), computer language
(UNIX binary code) and DNA sequences are
analyzed by this method
 Use
Linguistic Analysis (conti.)
  0.57
(-0.85 for real words)
Linguistic Analysis (conti.)
  0.77
Linguistic Analysis (conti.)
  0.34
Puzzle:


Non-coding sequence: satisfies Zipf law as the
natural or computer languages
Coding sequence: doesn’t satisfy Zipf law but the
logarithmic form:
f  b  c log 10 R

Does this mean, there are some biological meaning
in the non-coding region?
Visualize the Complete Genome
利用符號動力學 (symbolic dynamics) 方法，可以
將物種的完整DNA序列圖像化，是一種粗粒化的方
式，雖然失去一些細節，然而卻能使某些重要的特
性一目了然
Method for Visualization

1.
2.
3.
將序列圖像化的方法：
設定子序列長度，例如為2
將一單位正方形分割為四
等分，其所代表的鹼基如
圖所示。
將每一小格再細分為四格，
亦以同樣的相對位置訂定
對應鹼基。
GC
G
GG
CG
C
CC
GA
GT
CA
CT
AAG
AC
TG
T
TC
AA
AT
TA
TT
Method for Visualization (conti.)



統計序列中各長度為2之
子序列出現的次數，例如
下列序列：
AATCGGACGTAACC
GTAATATAGG，則其出
現次數如右表所示。
將各出現頻率依高低以不
同的顏色表示，顏色越深
者表出現次數越多。
所得之圖稱為該物種之
Genome Portrait。
GC
0
GG
2
CG
3
CC
1
GA
1
GT
2
CA
0
CT
0
AG
1
AC
2
TG
0
TC
1
AA
3
AT
3
TA
4
TT
0
Statistical Properties
如果DNA序列是隨機
序列，則各個子序列
出現的機率應該差不
多，但是由所研究的
幾個序列顯示，出現
機率的分佈極不均勻，
因此DNA序列顯然不
是一個隨機序列。
Genome Maps of Different
Species
對不同的物種可以作相同的分析，發現有
些物種的Genome Map很類似，有些則差
距較大。這種方法可能可以作為分類或是
演化學研究的方法。
Why so few?
既然DNA序列的子
序列分佈不均勻，
「經常出現」與「較
少出現」的子序列，
必然有其生物意義。
先由「較少出現」者
來看，在此圖形上似
乎顯示出某種碎形
（fractal）的特性？
這是為了「躲避」限
制內切脢的攻擊。
DNA 中的迴文



經過分析的結果，發現這
些「躲避」的字串都呈現
迴文的型態，如：CTAG，
GGACC，CCTAGG 等。
當某些酵素探測到這類序
列時可以與之結合，並由
此處將 DNA 長鏈切斷，
造成該生物死亡
因此這些「DNA 肖像」反
映出這個物種的演化痕跡
結語





物理學家處理 DNA 特性的方式，與生物學家大為
不同
生物學家希望能將每個生物的 DNA 序列的每個基
因找出來，並且探討這些基因在生物體內的功能
物理學家喜歡找「共同規則」，所以經常將各種
不同物種的序列拿來一起分析，希望找出共同點
但是由於目前資料量過於龐大，因此物理學家先
用所熟悉統計工具來「玩」DNA
只要有好點子，都可以來玩玩看！

DNA 的統計遊戲 - 東海大學應用物理學系

Transcript DNA 的統計遊戲 - 東海大學應用物理學系

Directory