配列アラインメント

Download Report

Transcript 配列アラインメント

奈良女子大集中講義
バイオインフォマティクス (3)
配列アラインメント
阿久津 達也
京都大学 化学研究所
バイオインフォマティクスセンター
講義予定
• 9月5日
–
–
–
–
分子生物学概観
分子生物学データベース
配列アラインメント
実習1(データベース検索と配列アラインメント)
• 9月6日
–
–
–
–
モチーフ発見
隠れマルコフモデル
カーネル法
進化系統樹推定
• 9月7日
–
–
–
–
タンパク質立体構造予測
相互作用推定
スケールフリーネットワーク
実習2(構造予測)
内容
• 配列アライメントとは?
• ペアワイズ・アライメント
– 大域アライメント
– 局所アライメント
– アフィンギャップコスト
• 配列検索の実用プログラム
• マルチプル・アライメント
– SPスコア
– 多次元DP
– 実用的アライメント法
配列検索
• バイオインフォマティク
スにおける基本原理
– 配列が似ていれば機能
も似ている
機能未知の配列
VLPIKSKLP......
配列検索
配列データベース
– ただし、例外はある
• 配列検索の利用法
– 実験を行い機能未知の配列
が見つかった
– データベース中で類似の配
列を検索
– 機能既知の類似の配列が見
つかれば、その配列と似た機
能を持つと推定
DFECILTSKLG.....
.
ACILTSTRE......
VLPIKSDLP......
HPFACILPDEL......
類似配列
VLPIKSDLP......
配列アラインメント
• バイオインフォマティクスの
最重要技術の一つ
• 2個もしくは3個以上の配
列の類似性の判定に利用
• 文字間の最適な対応関係
を求める(最適化問題)
• 配列長を同じにするように
、ギャップ記号(挿入、欠失
に対応)を挿入
A L G F G S L Y G
A L G G V S V G
A L G F G
A L G
S L Y G
G V S V
G
スコア行列
• 残基間(アミノ酸文字間)の類似性を表す行列
– PAM250, BLOSUM45 など
A
R
N
D
C
Q
E
G
H
I
L
K
M
F
P
S
T
W
Y
V
A
5
-2
-1
-2
-1
-1
R N D C Q E G H I L K M F P S T
-2 -1 -2 -1 -1 -1 0 -2 -1 -2 -1 -1 -3 -1 1 0
7 -1 -2 -4 1 0 -3 0 -4 -3 3 -2 -3 -3 -1 -1
-1 7 2 -2 0 0 0 1 -3 -4 0 -2 -4 -2 1 0
-2 2 8 -4 0 2 -1 -1 -4 -4 -1 -4 -5 -1 0 -1
-4 -2 -4 13 -3 -3 -3 -3 -2 -2 -3 -2 -2 -4 -1 -1
1 0 0 -3 7 2 -2 1 -3 -2 2 0 -4 -1 0 -1
BLOSUM50 スコア行列
(置換行列)の一部分
W
-3
-3
-4
-5
-5
-1
Y
-2
-1
-2
-3
-3
-1
V
0
3
-3
-4
-1
-3
ペアワイズ・アラインメント
• 配列が2個の場合でも可能なアラインメントの個数は
指数オーダー
• しかし、スコア最大となるアライメント(最適アライメン
ト)は動的計画法により、O(mn)時間で計算可能(m,n:
入力配列の長さ)
入力配列
AGCT, ACGCT
最適アラ
イメント
アライメント
AGCT AG - CT
A - GCT
- AGC - - T
ACGCT
ACGCT
ACGCT
AC - - GCT
1
3
-5
スコア -3
(同じ文字の時: 1、違う文字の時: -1、ギャップ1文字: -1)
ギャップペナルティ
ギャップ (g =3)
• 線形コスト -gd
L Y G
A L G
G
A V G V S D L
– g: ギャップ長
– d: ギャップペナルティ
– この図の例では、コスト= -3d
• アフィンギャップコスト –d – e(g-1)
– d: ギャップ開始ペナルティ
– e: ギャップ伸張ペナルティ
– この図の例では、コスト= -d - 2e
– よく利用されるペナルティ (d,e)=(12,2),(11,1)
動的計画法による大域アラインメント(1)
• 入力文字列から格子状グラフを構成
• アライメントと左上から右下へのパスが一対一対応
• 最長経路=最適アライメント
G
G
F
V
D
5
-5
K
-2
-5
Y
-5
7
D
1
-6
-1
-2
-3
-2
1
0
-4
4
-7
-7
-7
-7
アライメント
スコア
-7
-7
-7
-7
GKY
D
G F V D
5 -7 +7
-7 +4 = 2
GKY D
GF V D
-7 -7 -1 +0
-7 -7 = -29
GKY D
G F V D
-7 -7 -5 -7
-7 -7 -7 = -47
動的計画法による大域アラインメント(2)
F(0,0)
G
F(1,0)
=-d
K
F(2,0)
=-2d
DP (動的計画法)による
最長経路(スコア)の計算
=0
G
F(0,1)
=-d
F(i-1, j-1)
F(i, j-1)
s(K,F)
F
F (0, j)   jd , F (i,0)  id
F (i 1, j 1)  s( xi , y j )

F (i, j)  max
F (i 1, j)  d

F (i, j 1)  d

-d
⇒ O(mn)時間
F(0,2)
=-2d
F(i-1, j)
-d
F(i, j)
行列からの経路の復元は、
F(m,n)からmaxで=となっている
F(i,j)を逆にたどることに行う
(トレースバック)
局所アラインメント(1)
• 配列の一部のみ共通部分があることが多い
⇒共通部分のみのアライメント
• x1x2 … xm, y1y2 … yn を入力とする時、スコアが最大とな
る部分列ペア xixi+1 … xk, yjyj+1 … yh を計算
• 例えば、HEAWGEH と GAWED の場合、
AWGE
A W -E
というアライメントを計算
• 大域アライメントを繰り返すとO(m3n3)時間
⇒Smith-WatermanアルゴリズムならO(mn)時間
局所アラインメント(2)
Smith-Waterman アルゴリズム
0
F (i 1, j 1)  s (x y )

,
F (i , j )  max
F (i 1, j )  d
F (i , j 1)  d
(最大の F(i,j) からトレースバック)
局所アラインメント(3)
• 局所アライメントの正当性の証明(下図)
– 局所アライメントの定義:x1x2 … xm, y1y2 … yn を入力とする時、
スコアが最大となる部分列ペア xixi+1 … xk, yjyj+1 … yh を計算
0
F (i 1, j 1)  s( x y )

i, j
F (i, j)  max
F (i 1, j )  d
F (i, j 1)  d
maxF (i, j)}
0
0
0
(一部の辺は
省略)
アフィンギャップコストによるアラインメント
F (i 1, j )  d
Ix (i , j )  max
Ix (i 1, j )  e
F (i , j 1)  d
Iy (i , j )  max
Iy (i , j 1)  e
F (i 1, j 1)  s (x , y )

F (i , j )  max
Ix (i , j )

Iy (i , j )

• 三種類の行列を用いる動的
計画法によりO(mn)時間
• Smith-Watermanアルゴリ
ズムとの組み合わせが広く
利用されている
Ix (i, j)
Iy (i, j)
F (i, j)
配列検索の実用プログラム(1)
• O(mn): m は数百だが、n は数GBにもなる
⇒実用的アルゴリズムの開発
• FASTA: 短い配列(アミノ酸の場合、1,2文字、DNA
の場合、4-6文字)の完全一致をもとに対角線を検索
し、さらにそれを両側に伸長し、最後にDPを利用。
• BLAST: 固定長(アミノ酸では3, DNAでは11)の全
ての類似単語のリストを生成し、ある閾値以上の単
語ペアを探し、それをもとに両側に伸長させる。ギャ
ップは入らない。伸長の際に統計的有意性を利用。
配列検索の実用プログラム(2)
•
FASTA: 短い配列(アミノ酸の場合、1,2文字、DNAの場合、4-6文字)の完全一致
をもとに対角線を検索し、さらにそれを両側に伸長し、最後にDPを利用。
BLAST: 固定長(アミノ酸では3, DNAでは11)の全ての類似単語のリストを生成し
、ある閾値以上の単語ペアを探し、それをもとに両側に伸長。
•
FASTA
A
BLAST
Query
・・・ A A F D M F D A D G G ・・・
C A
T
G A
C
類似ワード
G
A
MFD MFE MFN
T
MYD MYE MYN
G
・・・
A
Query
T
( ktup=2 )
・・・ A A F D M F D A D G G ・・・
・・・ E A F S M F E K D G D ・・・
Database
配列検索の実用プログラム(3)
• SSEARCH: 局所アラインメント(SmithWatermanアルゴリズム)をそのまま実行
• PSI-BLAST: ギャップを扱えるように拡張し
たBLASTを繰り返し実行。「BLASTで見つ
かった配列からプロファイルを作り、それを
もとに検索」という作業を繰り返す。
マルチプルアラインメント: 意味
• 3本以上の配列が与えられた時、全ての配列の長さが
同じになるようにギャップを挿入
• 進化的、構造的に相同な残基(塩基)ができるだけ同じ
カラムに並ぶようにする
• 通常はスコアを用いて、最適化問題として定式化
• 理想的なアライメント
– 同一残基から派生した残基が同一カラムに並ぶ
– 構造的に重なり合う残基が同一カラムに並ぶ
⇒構造的に重なり合わない場所を無理に重ね合わせるのは、あ
まり意味がない
マルチプルアライメント:定式化
• 3本以上の配列が与えられた時、長さが同じで、かつ、スコアが最適とな
るように各配列にギャップを挿入したもの
HBA_HUMAN
HBB_HUMAN
MYG_PHYCA
GLB5_PETMA
LGB2_LUPLU
GLB1_GLYDI
VGAHAGEY
VNVDEV
VEADVAGH
VYSTYETA
FNANIPKH
IAGADNGAGV
HBA_HUMAN
HBB_HUMAN
MYG_PHYCA
GLB5_PETMA
LGB2_LUPLU
GLB1_GLYDI
V
V
V
V
F
I
G
E
Y
N
A
A
A
S
A
G
A
D
H
N
D
T
N
N
A
V
V
Y
I
G
G
D
A
E
P
A
E
E
G
T
K
G
• スコアづけ (全体スコアは基本的に各列のスコアの和:∑S(mi))
– 最小エントロピースコア
• S(mi) = -∑cia log pia
(cia= i列におけるaの出現回数,
pia = i列におけるaの生起確率)
– SPスコア(Sum-of-Pairs)
• S(mi)=∑k<l s(mik,mil)
(mik = i列, k行目の文字)
Y
V
H
A
H
V
SP (Sum of Pairs) スコア
• S(mi)=∑k<l s(mik,mil)
mik = i列, k行目の文字
• 問題点
– 確率的な正当性が無い
– 同一カラムに a,b,c が並ん
だ場合、log(pabc/qaqbqc) と
すべきだが、SPスコアでは
log(pab/qaqb)+
log(pbc/qbqc)+ log(pac/qaqc)
S (m1 )  s(L, I)  s(L, V)  s(I, V)
S (m2 )  s(D,)  s(D,)  s(,)
S (m3 )  s(D,)  s(D, E)  s(, E)
L D D
I
V
E
m1 m2 m3
多次元DPによるマルチプルアライメント
• N個の配列に対するマルチ
プルアライメント
N次元DPによりO(2NnN)時間
(各配列の長さはO(n)を仮定)
(i,j,k-1)
• 例:N=3
F (i 1, j 1, k 1)  S ( x1 , x2 , x3 )
i
j
k

F (i, j 1, k 1)  S (, 2 , 3 )
x j xk

F (i 1, j, k 1)  S ( 1 ,, 3 )
xi xk

1
2

F (i, j, k )  max F (i 1, j 1, k )  S ( xi , x j ,)

3
F (i, j, k 1)  S (,, xk )

2
F (i, j 1, k )  S (, x j ,)

F (i 1, j, k )  S ( x1i ,,)

(i-1,j,k) (i,j,k)
(i,j-1,k)
マルチプルアライメントの計算手法
• 分枝限定法
– 10配列程度なら最適解が計算可能
•
•
•
•
•
シミュレーテッドアニーリング
遺伝的アルゴリズム
逐次改善法
HMMによるアライメント
プログレッシブアライメント
– CLUSTAL-W(最も広く利用されているソフト)で採用
– 逐次改善法との組み合わせが、より有効
実用的マルチプルアライメント法
•
ヒューリスティックアルゴリズムの
開発
–
–
•
STEP 1
N次元DPは(N=4ですら)
非実用的
一般にはNP困難
プログレッシブアライメント
1.
2.
•
入力配列
近隣結合法などを用いて 案内木
を作る
類似度が高い節点から低い節点
へという順番で、配列対配列、配
列対プロファイル、プロファイル対
プロファイルのアラインメントを順
次計算
逐次改善法
–
「配列を一本取り除いては、アライ
ンメントしなおす」を繰り返す
STEP 2
③
①
②
プログレッシブアライメント
A C C - GA A C - - GA T
- C C A GA T
- C GA - A T
A C C GA A C - GA T
A C C GA
C C A GA T
C GA - A T
A C GA T
C C A GA T
C GA A T
プロファイル-プロファイル・アライメント
•
各列を1文字のように扱うことにより、DPにより計算
Profile vs. Profile
A C C GA A C C - GA A C - GA T
A C - - GA T
- C C A GA T
C C A GA T
- C GA - A T
C GA - A T
A C C GA
C C A GA T
C GA - A T
Sequnce vs. Profile
A C C - GA - C C A GA T
- C GA - A T
Score for
column pair
A
A
C
G
Score for
column pair
C
C
G
逐次改善法
•
「配列を一本取り除いては、アラインメントしなおす」
を繰り返す
講義のまとめ(配列アライメント)
• 動的計画法によるペアワイズアライメント
– 大域アライメント
– 局所アライメント(Smith-Watermanアルゴリズム)
– アフィンギャップコストを用いたアライメント
• マルチプルアライメント
– 多次元DP
– プログレッシブアライメント
• 参考文献
– 阿久津:バイオインフォマティクスの数理とアルゴリズム 、共立出版、
2007