Alineamientos de secuencias

Download Report

Transcript Alineamientos de secuencias

Alineamientos de secuencias
¿Para qué hace falta la compoaración
de secuencias?
Bases biológicas:
• Muchos genes y proteínas son miembros de familias
que tienen funciones biológicas similares o un origen
filogenético común.
Se usa para:
• Identificar relacciones evolutivas.
• Identificar patrones conservados.
• en caso de secuencias con funciones desconocidas:
encontrar dominios similares en otras proteinas implica
una función similar.
Alineamiento de secuencias
Claves:
• 1- que tipo de alineamiento hay que considerar
• 2- que sistema de puntuacion “scoring” hay que
usar para clasificar los alineamientos
• 3- que algoritmos hay que usar para encontrar
la solución óptima (o buena)
• 4- métodos estadisiticos necesarios para
evaluar la significacion del score de los
alineamientos
Tipos de comparación de secuencias
• Pairwise Alignments
• Alineamientos múltiples
• Búsquedas en bases de datos
Pairwise Sequence Alignment
• Principios de la comparación por pares de
secuencias
• alineamientos globales / locales
• sistemas de puntuación “scoring”
• penalizaciones por GAP
• Métodos de pairwise sequence alignment
• Basados en deslizamiento de ventanas “windowbased”
• programación dinámica
Pairwise Sequence Alignment
• Alineamientos globales
• Alineamientos locales
Alineamiento Global
Para secuencias que estan muy relaccionadas
(Needleman & Wunsch) crea alineamientos en toda la
longitud de la secuencia.
Alineamiento Global
Dos secuencias con varias regiones de similaridad
1 AGGATTGGAATGCTCAGAAGCAGCTAAAGCGTGTATGCAGGATTGGAATTAAAGAGGAGGTAGACCG.... 67
|||||||||||||| |
|
| |||| ||
| |
| ||
1 AGGATTGGAATGCTAGGCTTGATTGCCTACCTGTAGCCACATCAGAAGCACTAAAGCGTCAGCGAGACCG 70
Con un alineamiento local solo se obtendrá una similaridad muy
baja: fragmento azul
Alineamiento Local
14
42
1
1
39
1
62
66
TCAGAAGCAGCTAAAGCGT
||||||||| |||||||||
TCAGAAGCA.CTAAAGCGT
AGGATTGGAATGCT
||||||||||||||
AGGATTGGAATGCT
AGGATTGGAAT
|||||||||||
AGGATTGGAAT
AGACCG
||||||
AGACCG
67
71
49
11
14
14
32
59
Alineamiento local
encuentra la region
que tiene la mejor
similaridad
local.
Pairwise Sequence Alignment
alfa globina humana
beta-globina
leghemoglobina
Glutonina S-tranfera
nematodos
Parámetros a tener en cuenta en el
alineamiento de secuencias
Sistemas de puntuación:
• A cada par de símbolos se le asigna un valor numerico
basado en una tabla de comparación de síbolos.
Penalizaciones por Gap:
• apertura:
• Extensión:
Costo de introducir un gap
Costo de extender el gap
Sistemas de puntuación de secuencias de
nucleótidos
actaccagttcatttgatacttctcaaa
Sequencia 1
taccattaccgtgttaactgaaaggacttaaagact
Sequencia 2
A
G
C
T
A
1
0
0
0
G
0
1
0
0
C
0
0
1
0
T
0
0
0
1
Match: 1
Mismatch: 0
Score = 5
Sistemas de puntuación de secuencias
de nucleótidos
actaccagttcatttgatacttctcaaa
Sequencia 1
taccattaccgtgttaactgaaaggacttaaagact
Sequencia 2
Valores negativos que penalizen los mismatches:
A
T
C
G
A
5
-4 -4 -4
T
-4
5 -4 -4
C
-4
-4
G
-4
-4 -4
5 -4
5
Matches: 5
Mismatches: 19
Score: 5 x 5 + 19 * (-4) = - 51
Sistemas de puntuación de secuencias de
proteínas
Sequencia 1
PTHPLASKTQILPEDLASEDLTI
Sequencia 2
PTHPLAGERAIGLARLAEEDFGM
Scoring
matrix
C
C
S
T
P
A
G
N
9
S -1
4
T
-1
1
5
P -3
-1
-1
7
A
0
1
0
-1
4
G -3
0
-2
-2
0
6
N -3
1
0
-2
-2
0
5
D -3
0
-1
-1
-2
-1
1
.
.
D
.
.
T:G
= -2
T:T
= 5
Score = 48
210 valores
6
Protein Scoring Systems
• Amino acidos tienen diferentes propiedades bioquímicas y físicas
que pueden influenciar su capacidad de ser reemplazados en la evolución
tiny
aliphatic
P
C S+S
I
V
A
L
hydrophobic
M
Y
F
small
G
G
CSH
T
S
D
K
W
H
N
E
R
Q
aromatic
positive
polar
charged
Protein Scoring Systems
• Las matrices reflejan
• Probabilidades de substituciones mutuas
• Probabilidad de ocurrencia de un aminoacido
• Matrices mas usadas:
• PAM
• BLOSUM
PAM (Percent Accepted Mutations) matrices
• Derived from global alignments of protein families .
• Family members share at least 85% identity (Dayhoff et al.,
1978).
• Construction of phylogenetic tree and ancestral
sequences of each protein family
• Computation of number of replacements for each pair of
amino acids
PAM (Percent Accepted Mutations) matrices
• The numbers of replacements were used to compute a so-called
PAM-1 matrix.
• PAM 1 significa: 1% de mutaciones aceptadas, es decir se utilizaría
esta matriz cuando uno esperara un 1 % de substituciones. PAM
matrices para distancias evolucionarias mas grandes se pueden
extrapolar a partir de esta matriz.
• PAM250 = 250 mutaciones por cada 100 residuos.
• A mayor número mayor distancia evolutiva.
PAM250 es muy común. a esta distancia evolutiva, 48% de los triptófanos,
41% de las cisteinas y 20% de las histidinas permanecen inalteradas pero
solo 7% de las serinas
PAM 250
El valor de un par de aa idénticos representa la probabilidad de que este
aa permanezca inalterado (e.g. triptófano)
A
R
N
D
C
Q
E
G
H
I
L
K
M
F
P
S
T
W
Y
V
B
Z
W
A
2
-2
0
0
-2
0
0
1
-1
-1
-2
-1
-1
-3
1
1
1
-6
-3
0
2
1
R
-2
6
0
-1
-4
1
-1
-3
2
-2
-3
3
0
-4
0
0
-1
2
-4
-2
1
2
N
0
0
2
2
-4
1
1
0
2
-2
-3
1
-2
-3
0
1
0
-4
-2
-2
4
3
D
0
-1
2
4
-5
2
3
1
1
-2
-4
0
-3
-6
-1
0
0
-7
-4
-2
5
4
C
C
-2
-4
-4
-5
12
-5
-5
-3
-3
-2
-6
-5
-5
-4
-3
0
-2
-8
0
-2
-3
-4
Q
0
1
1
2
-5
4
2
-1
3
-2
-2
1
-1
-5
0
-1
-1
-5
-4
-2
3
5
-8
E
0
-1
1
3
-5
2
4
0
1
-2
-3
0
-2
-5
-1
0
0
-7
-4
-2
4
5
G
1
-3
0
1
-3
-1
0
5
-2
-3
-4
-2
-3
-5
0
1
0
-7
-5
-1
2
1
H
-1
2
2
1
-3
3
1
-2
6
-2
-2
0
-2
-2
0
-1
-1
-3
0
-2
3
3
I
-1
-2
-2
-2
-2
-2
-2
-3
-2
5
2
-2
2
1
-2
-1
0
-5
-1
4
-1
-1
L
-2
-3
-3
-4
-6
-2
-3
-4
-2
2
6
-3
4
2
-3
-3
-2
-2
-1
2
-2
-1
K
-1
3
1
0
-5
1
0
-2
0
-2
-3
5
0
-5
-1
0
0
-3
-4
-2
2
2
M
-1
0
-2
-3
-5
-1
-2
-3
-2
2
4
0
6
0
-2
-2
-1
-4
-2
2
-1
0
F
-3
-4
-3
-6
-4
-5
-5
-5
-2
1
2
-5
0
9
-5
-3
-3
0
7
-1
-3
-4
P
1
0
0
-1
-3
0
-1
0
0
-2
-3
-1
-2
-5
6
1
0
-6
-5
-1
1
1
S
1
0
1
0
0
-1
0
1
-1
-1
-3
0
-2
-3
1
2
1
-2
-3
-1
2
1
T
1
-1
0
0
-2
-1
0
0
-1
0
-2
0
-1
-3
0
1
3
-5
-3
0
2
1
W
W
-6
2
-4
-7
-8
-5
-7
-7
-3
-5
-2
-3
-4
0
-6
-2
-5
17
0
-6
-4
-4
Y
-3
-4
-2
-4
0
-4
-4
-5
0
-1
-1
-4
-2
7
-5
-3
-3
0
10
-2
-2
-3
17
V
0
-2
-2
-2
-2
-2
-2
-1
-2
4
2
-2
2
-1
-1
-1
0
-6
-2
4
0
0
B
2
1
4
5
-3
3
4
2
3
-1
-2
2
-1
-3
1
2
2
-4
-2
0
6
5
Z
1
2
3
4
-4
5
5
1
3
-1
-1
2
0
-4
1
1
1
-4
-3
0
5
6
BLOSUM (Blocks Substitution Matrix)
• Derivada de alineamientos de dominios pertenecientes
aproteinas alejadas en la evolucion (Henikoff & Henikoff,1992).
A
A
C
E
C
• Contaron la presencia de cada
par de aa en cada columna de cada
bloque de alineamientos.
A
A
• Los números obtenidos del
análisis de todos los bloques se usaron
para calcular las matrices
de tipo BLOSUM.
C
E
C
A-C =4
A-E =2
C-E =2
A-A =1
C-C =1
BLOSUM (Blocks Substitution Matrix)
• Las secuencias se clusterizan dentro de un bloque de acuerdo a su
grado de identidad. Clusters are counted as a single sequence.
• Las matrices BLOSUM difieren en el porcentaje de identidad de
secuencias usado para hacer el clustering
• El número de la matriz (e.g. 62 en BLOSUM62) se refiere al
porcentaje máximo de identidad entre las secuencias utilizado para
crear la matriz
•Mayores número significan distancias evolutivas menores.
Matrices de substitución: Log-odds Ratio
Dado un par de secuencias alineadas queremos asignar una score que mida el grado
de posibilidad „likelihood“, de que las secuencias estan relaccionadas
x,y = amino acids (A,C......Y)
i = 1....n (longitud de la secuencia n)
Random model (unrelated) :
Match model (related) :
related
Odds ratio
:
unrelated
q q
P(x,y|M) =p
p
p
P(x,y|M)
=
= 
q
P(x,y|R)
q  q
q
p
s(a,b) = log
S =  s(x ,y )
q q
P(x,y|R) =
xi
i
i
xi
i
where :
i
s(a,b) is the log likelyhood ratio of the residue pair (a,b) occurring
opposed to an unaligned pair.
xi yi
xi yi
i
i
yi
i
xi yi
i
i
Log-odds ratio :
P = likelyhood
q = probabilidad
yi
i
xi
i
y
ab
a
b
as an aligned pair, as
Como escoger la matriz adecuada
• Generally, BLOSUM matrices perform better than
PAM matrices for local similarity searches (Henikoff &
Henikoff, 1993).
• When comparing closely related proteins one
should use lower PAM or higher BLOSUM
matrices, for distantly related proteins higher PAM
or lower BLOSUM matrices.
• For database searching the commonly used matrix
is BLOSUM62.
Como puntuar inserciones y delecciones
A T G T A A T G C A
T A T G T G G A A T G A
A T G T - - A A T G C A
T A T G T G G A A T G A
insertion / deletion
La creación de un gap se penaliza con un score negativo.
Gap Penalties
• Un alineamiento optimo
• maximiza el numero de matches
• minimiza el número de gaps
• Permitir la inserción arbitraria de muchos gaps puede dar
lugar a scores altos entre secuencias no homologas.
• La penalización de los gaps fuerza a los alineamientos a
alcanzar los criterios optimos
Gap Penalties
Linear gap penalty score:
(g) = - gd
Affine gap penalty score:
(g) = -d - (g -1)e
(g) = gap penalty score of a gap of
lenght g
d = gap opening penalty
e = gap extension penalty
g = gap lenght
Scoring Insertions and Deletions
A T G T T A T A C
match = 1
mismatch = 0
Total Score:
Total Score:
T A T G T G C G T A T A
4
8 - 3.2 = 4.8
Gap parameters:
d = 3 (gap opening)
e = 0.1 (gap extension)
g = 3 (gap lenght)
(g) = -d - (g -1)e
(g) = -3 - (3 -1) 0.1 = -3.2
A T G T - - - T A T A C
T A T G T G C G T A T A
insertion / deletion
Pairwise Sequence Alignment
• Principios de la comparación por pares de
secuencias
• alineamientos globales / locales
• sistemas de puntuación “scoring”
• penalizaciones por GAP
• Métodos de pairwise sequence alignment
• Basados en deslizamiento de ventanas “windowbased”
• programación dinámica
Pairwise Sequence Alignment
Sequence 2
A
T
T
C
A
C
A
T
A
T
A
C
A
T
T
A
Sequence 1
C
G
T
A
C
Dotplot:
A dotplot da una visión general del alineamiento
Sequence 2
A
T
T
C
A
C
A
T
A





 
 











T







 

A C

A T
T


A C
Sequence 1
G
T

A C
Dotplot:
Cada diagonal en elgráfico corresponde a un posible alineamiento
sin gap entre las dos secuencias
Sequence 2
A
T
T
C
A
C
A
T
A





 
 











T







 

A C

A T
T


A C
G
T

A C
Sequence 1
One possible alignment:
T A C A T T A C G T A C
A T A C A C T T A
Pairwise Sequence Alignment
• Principios de la comparación por pares de
secuencias
• alineamientos globales / locales
• sistemas de puntuación “scoring”
• penalizaciones por GAP
• Métodos de pairwise sequence alignment
• Basados en deslizamiento de ventanas “windowbased”
• programación dinámica
Window-based Approaches
• Word Size
• Window / Stringency
Word Size Algorithm
T A C G G T A T G
Word Size = 3
A C A G T A T C
C
T
A
T
G
A
C
A
T A C G G T A T G
A C A G T A T C
T A C G G T A T G
A C A G T A T C
T A C G G T A T G
A C A G T A T C

T A C G G T A T G

Window / Stringency
T A C G G T A T G
Window = 5 / Stringency = 4
T C A G T A T C
T A C G G T A T G
T C A G T A T C

T A C G G T A T G
T C A G T A T C




T A C G G T A T G
T A C G G T A T G
T C A G T A T C
C
T
A
T
G
A
C
A

Considerations
• The window/stringency method is more sensitive than the wordsize
method (ambiguities are permitted).
• The smaller the window, the larger the weight of statistical
(unspecific) matches.
• With large windows the sensitivity for short sequences is reduced.
• Insertions/deletions are not treated explicitly.
Insertions / Deletions in a Dotplot
Sequence 2 T
A
C
T
G
T
C
A
T
T
A
C
T
G
T
T
C
A
T
Sequence 1
T A C T G - T C A T
| | | | |
| | | |
T A C T G T T C A T
Dotplot (Window = 130 /
Stringency = 9)
Hemoglobin
-chain
Hemoglobin -chain
Dotplot (Window = 18
/ Stringency = 10)
Hemoglobin
-chain
Hemoglobin -chain
Pairwise Sequence Alignment
• Principles of pairwise sequence comparison
• global / local alignments
• scoring systems
• gap penalties
• Methods of pairwise sequence alignment
• window-based approaches
• dynamic programming approaches
• Needleman and Wunsch
• Smith and Waterman
Dynamic Programming
Procedimiento automático que encuentra el mejor
alineamiento con un score óptimo dependiendo de los
parámetros elegidos.
Soluciones recursivas. Los problemas pequeños
se solucionan primero y las soluciones se usan
para resolver problemas mayores despues. Las
soluciones intermedias se almacenan en matrices
tabulares.
Principios básicos de la programación
dinámica
-Initialization of alignment matrix: the scoring model
- Stepwise calculation of score values
(creation of an alignment path matrix)
- Backtracking (evaluation of the optimal path)
Initialization of Matrix (BLOSUM 50)
H
E
A
G
A
W
G
H
E
E
P
-2
-1
-1
-2
-1
-4
-2
-2
-1
-1
A
-2
-1
5
0
5
-3
0
-2
-1
-1
W
-3
-3
-3
-3
-3
15
-3
-3
-3
-3
H
10
0
-2
-2
-2
-3
-2
10
0
0
E
0
6
-1
-3
-1
-3
-3
0
6
6
A
-2
-1
5
0
5
-3
0
-2
-1
-1
E
0
6
-1
-3
-1
-3
-3
0
6
6
Needleman and Wunsch (global alignment)
Sequence 1:
Sequence 2:
HEAGAWGHEE
PAW H EAE
Scoring parameters:
BLOSUM50 matrix
Gap penalty:
Linear gap penalty of 8
Creation of an alignment path matrix
Idea:
Crear un alineamiento global optimo usando
soluciones precias para alineamientos optimos de
subsecuencias más pequeñas.
• Construct matrix F indexed by i and j (one index for each sequence)
• F(i,j) es el score para el mejor alineamiento entre el segmento
inicial x1...i de x hasta xi y el segmento inicial y1...j de y hasta yj
• construir F(i,j) de forma recursiva empezando con F(0,0) = 0
Optimal global alignment:
HEAG AWGHE--P- AW-HEA
Creation of an alignment path matrix
F(i, j) = F(i-1, j-1) + s(xi ,yj)
F(i, j) = max
F(i, j) = F(i-1, j) - d
F(i, j) = F(i, j-1) - d
F(i-1, j-1)
F(i, j-1)
-d
s(xi ,yj)
F(i-1,j)
F(i, j)
-d
HEAGAWGHE-E
--P-AW-HEAE
Creation of an alignment path matrix
• If F(i-1,j-1), F(i-1,j) and F(i,j-1) are known we can calculate F(i,j)
• Three possibilities:
• xi and yj are aligned, F(i,j) = F(i-1,j-1) + s(xi ,yj)
• xi is aligned to a gap, F(i,j) = F(i-1,j) - d
• yj is aligned to a gap, F(i,j) = F(i,j-1) - d
• The best score up to (i,j) will be the largest of the three options
Creation of an alignment path
matrix
0
P
-8
A
-16
W
-24
H
-32
H
-8
E
-16
A
-24
G
-32
A
-40
W
-48
G
-56
H
-64
Boundary conditions
F(i, 0) = -i d
F(j, 0) = -j d
E
-40
A
-48
E
-56
E
-72
E
-80
Stepwise calculation of score values
P
0
H
-8
E
-16
-8
-2
-9
A
-24
G
-32
-16
W
-24
-10
W
-48
G
-56
-3
= -8 -8= -16
-32
F(1,0) - d
E
-40
F(1,0) + s(xi ,yj) = -8 -1 = -9
-48
E
-56
H-A=-2
F(0,0) + s(xi ,yj) = 0 -2 = -2
= -8 -8= -16
F(2,1) = max F(1,1) - d
= -2 -8 = -10
F(2,0) - d
= -16 -8= -24
F(1,2) = max -16 -8 = -24 = -10
-2 -8 = -10
E-A=-1
= -2
= -9
-2 -1 = -3
-8 -2 = -10
F(2,2) = max
-10 -8 = -18
-9 -8 = -17
E
-80
E-P=-1
F(i, j) = F(i, j-1) - d
F(1,1) = max F(0,1) - d
E
-72
P-H=-2
F(i, j) = F(i-1, j) - d
H
A
H
-64
F(i, j) = F(i-1, j-1) + s(xi ,yj)
F(i, j) = max
A
A
-40
= -3
Backtrackin
g
0
H
-8
E
-16
A
-24
G
-32
A
-40
W
-48
G
-56
H
-64
E
-72
E
-80
-8
-2
-9
-17
-25
-33
-42
-49
-57
-65
-73
A -16
-10
-3
-4
-12
-20
-28
-36
-44
-52
-60
W -24
-18
-11
-6
-7
-15
-5
-13
-21
-29
-37
H -32
-14
-18
-13
-8
-9
-13
-7
-3
-11
-19
E -40
-22
-8
-16
-16
-9
-12
-15
-7
3
-5
A -48
-30
-16
-3
-11
-11
-12
-12
-15
-5
2
E -56
-38
-24
-11
-6
-12
-14
-15
-12
-9
1
P
Optimal global alignment:
HEAG AWGHE- E
--P- AW-HEA E
Smith and Waterman
(local alignment)
Two differences:
0
1. F(i, j) = max
F(i, j) = F(i-1, j-1) + s(xi ,yj)
F(i, j) = F(i-1, j) - d
F(i, j) = F(i, j-1) - d
2. An alignment can now end anywhere in the matrix
Example:
Sequence 1
Sequence 2
H EAGAW GHE E
PAW H EAE
Scoring parameters:
Gap penalty:
Log-odds ratios
Linear gap penalty of 8
Smith Waterman alignment
0
H
0
E
0
A
0
G
0
A
0
W
0
G
0
H
0
E
0
E
0
P
0
0
0
0
0
0
0
0
0
0
0
A
0
0
0
5
0
5
0
0
0
0
0
W
0
0
0
0
2
0
20
12
4
0
0
H
0
10
2
0
0
0
12
18
22
14
6
E
0
2
16
8
0
0
4
10
18
28
20
A
0
0
8
21
13
5
0
4
10
20
27
E
0
0
6
13
18
12
4
0
4
16
26
Optimal local alignment:
A WGH E
A W-H E
Extended Smith & Waterman
To get multiple local alignments:
• delete regions around best path
• repeat backtracking
Extended Smith & Waterman
0
H
0
E
0
A
0
G
0
A
0
W
0
G
0
H
0
E
0
E
0
P
0
0
0
0
0
0
0
0
0
0
A
0
0
0
5
0
5
0
0
0
0
0
W
0
0
0
0
2
0
20
12
4
0
0
H
0
10
2
0
0
0
12
18
22
14
6
E
0
2
16
8
0
0
4
10
18
28
20
A
0
0
8
21
13
5
0
4
10
20
27
E
0
0
6
13
18
12
4
0
4
16
26
Extended Smith & Waterman
0
H
0
E
0
A
0
G
0
A
0
W
0
G
0
H
0
E
0
E
0
P
0
0
0
0
0
0
0
0
0
0
A
0
0
0
5
0
0
0
0
0
0
W
0
0
0
0
2
0
0
0
H
0
10
2
0
0
0
E
0
2
16
8
0
0
A
0
0
8
21
13
5
0
E
0
0
6
13
18
12
4
Second best local alignment:
0
HEA
HEA
Further Extensions of
Dynamic Programming
• Overlap matches
• Alignment with affine gap scores
Pairwise Sequence
Alignment
• Pairwise sequence comparison
• global / local alignments
• parameters
• scoring systems
• insertions / deletions
• Methods of pairwise sequence alignment
• dotplot
• windows-based methods
• dynamic programming
• algorithm complexity
End.of.pa.irwise..sequence
| |
|
|
|
align.ment.cours.e
Progressive
Alignment:
1. step
Multiple Alignment
Methods of Pairwise Comparison
Programs perform global alignments:
• Needleman & Wunsch:
(Pileup, Tree, Clustal)
• Word Size Method:
(Clustal)
• X. Huang
(MAlign)
(modified N-W)
Progressive
Alignment:
Multiple Alignment
2. step
Construction of a Guide Tree
Sequence
1
2
3
4
5
1
2
3
4
Similarity Matrix:
displays scores of
all sequence pairs.
5
The similarity matrix
is transformed into a distance matrix . . . . .
Progressive
Alignment:
2. step
Multiple Alignment
Construction of a Guide Tree
Guide Tree
1
5
Distance
Matrix
2
3
4
Neighbour-Joining Method or
UPGMA (unweighted pair group method of arithmetic averages)
Progressive
Alignment:
Multiple Alignment
3. step
Multiple Alignment
Guide Tree
1
5
2
3
2
4
1
Progressive
Alignment:
Multiple Alignment
3. step
Columns - once aligned - are never
changed
G T C C G T T - C G C
C A G G
C - G G
T T A C T T C C A G G
G T C C G - - C A G G
T T - C G C - C - G G
T T A C T T C C A G G
Progressive
Alignment:
Multiple Alignment
3. step
Columns - once aligned - are never
changed
G T C C G T T - C G C
C A G G
C - G G
T T A C T T C C A G G
G T C C G - - C A G G
T T - C G C - C - G G
T T A C T T C C A G G
. . . . and new gaps are inserted.
Progressive
Alignment:
Multiple Alignment
3. step
Columns - once aligned - are never
changed
G T C C G - - C A G G
T T - C G C - C - G G
T T A C T T C C A G G
G T C C G - - C A G G
T T - C G C - C - G G
T T A C T T C C A G G
A T C T - - C A A T
C T G T C C C T A G
A T C - T - - C A A T
C T G - T C C C T A G
Sub-sequence alignments
A K-means like clustering problem
Clustering resulting model
Clustering predictions
Assignments
•Describe a pairwise alignment with a different gap
penalization.
•Provide an example and perform a multiple global
alignment. Describe the recipe.
•Provide an example and perform a multiple alignment of
subsequences. Describe the recipe.
•Algorithms Order (polynomial, exponential, NP)
Algorithmic Complexity
How does an algorithm‘s performance in CPU time and
required memory storage scale with the size of the problem?
Needleman & Wunsch
• Storing (n+1)x(m+1) numbers
• Each number costs a constant number of
calculations to compute (three sums and a max)
• Algorithm takes O(nm) memory and O(nm) time
• Since n and m are usually comparable: O(n2)
Gracias por
su atención…
http://www.m4m.es