¿Por qué es útil la comparación de la secuencia? Lipman, David (NIH/NLM/NCBI) Casi 100 Trillones BLAST comparaciones por cuarto (10/01) 1.E+14 9.E+13 8.E+13 7.E+13 6.E+13 5.E+13 4.E+13 3.E+13 2.E+13 .

Download Report

Transcript ¿Por qué es útil la comparación de la secuencia? Lipman, David (NIH/NLM/NCBI) Casi 100 Trillones BLAST comparaciones por cuarto (10/01) 1.E+14 9.E+13 8.E+13 7.E+13 6.E+13 5.E+13 4.E+13 3.E+13 2.E+13 .

¿Por qué es útil la
comparación de la
secuencia?
Lipman, David
(NIH/NLM/NCBI)
Casi 100 Trillones BLAST
comparaciones por cuarto (10/01)
1.E+14
9.E+13
8.E+13
7.E+13
6.E+13
5.E+13
4.E+13
3.E+13
2.E+13
. 1 E+13
0.E+00
1998
1999
Quarter
2000
2001
Similaridad rápida busca en banco de datos
ácido nucleico y proteína.
Con el desarrollo de bancos grandes de datos de secuencias de
proteína y ácido nucleico, la necesidad de métodos eficientes
en la búsqueda en tales bancos para secuencias similares a
una secuencia dada que se ha convertido en evidente.
Presentamos un algoritmo para la comparación global de
secuencias basadas en matching k-tuples de secuencia de
elementos para una k fijada. El método resulta en reducción
sustancial en el tiempo requerido para buscar en una base de
datos cuando se compara con técnicas anteriores de análisis de
similaridad, con pérdida mínima en la sensibilidad. El algoritmo
también ha sido adaptado, en una implementación separada,
para producir alineamientos rigurosos de secuencia.
Actualmente, usando el sistema DEC KL-10, podemos
comparar todas las secuencias en todo el Banco de Datos de
Proteínas de la Fundación Nacional de investigación Biomédica
con a 350-residue query sequence en menos de 3 minutos y
efectuar un análisis similar con una 500-base query sequence
contra todas las secuencias eucariótas en la Base de Datos de
Acido Nucleico Los Alamos en menos de 2 minutos.
Gen del cáncer encuentra su
pareja
NY Times Julio 3, 1983
“…una búsqueda en computadora con serendipia…”
v-sis:
6 QGDPIPEELYKMLSGHSIRSFDDLQRLLQGDSGKEDGAELDLNMTRSHSGGELESLARGK 65
QGDPIPEELY+MLS HSIRSFDDLQRLL GD G+EDGAELDLNMTRSHSGGELESLARG+
PDGF : 10 QGDPIPEELYEMLSDHSIRSFDDLQRLLHGDPGEEDGAELDLNMTRSHSGGELESLARGR 69
v-sis: 66 RSLGSLSVAEPAMIAECKTRTEVFEISRRLIDRTNANFLVWPPCVEVQRCSGCCNNRNVQ 125
RSLGSL++AEPAMIAECKTRTEVFEISRRLIDRTNANFLVWPPCVEVQRCSGCCNNRNVQ
PDGF : 70 RSLGSLTIAEPAMIAECKTRTEVFEISRRLIDRTNANFLVWPPCVEVQRCSGCCNNRNVQ 129
v-sis: 126 CRPTQVQLRPVQVRKIEIVRKKPIFKKATVTLEDHLACKCEIVAAARAVTRSPGTSQEQR 185
CRPTQVQLRPVQVRKIEIVRKKPIFKKATVTLEDHLACKCE VAAAR VTRSPG SQEQR
PDGF : 130 CRPTQVQLRPVQVRKIEIVRKKPIFKKATVTLEDHLACKCETVAAARPVTRSPGGSQEQR 189
v-sis: 186 AKTTQSRVTIRTVRVRRPPKGKHRKCKHTHDKTALKETLGA 226
AKT Q+RVTIRTVRVRRPPKGKHRK KHTHDKTALKETLGA
PDGF : 190 AKTPQTRVTIRTVRVRRPPKGKHRKFKHTHDKTALKETLGA 230
V-sis y Factor de crecimiento derivado de plaquetas (PDGF)
Un temprano, muy sutil
descubrimiento…
Productos genéticos virales src gene están relacionados a la cadena
catalítica de mamíferos dependiente de la proteínkinasa cAMP
Barker WC, Dayhoff MO. PNAS 1982 May;79(9):2836-2839
Query: 113 YAAQIVLTFEYLHSLDLIYRDLKPENLLIDQQGYIQVTDFGFAKR---VKGRTWT---LC 166
Y+ +V +LHS +++ DLKP N+LI +Q +++DFG +++ ++GR + +
Sbjct: 125 YSLDVVNGLLFLHSQSILHLDLKPANILISEQDVCKISDFGCSQKLQDLRGRQASPPHIG 184
Query: 167 GTPEYLAPEIILSKGYNKAVDWWALGVLIYEMAAGYPPFFADQPIQIYEKIVSGKVR 223
GT + APEI+ +
D ++ G+ +++M P ++ +P + +V+ +R
Sbjct: 185 GTYTHQAPEILKGEIATPKADIYSFGITLWQMTTREVP-YSGEPQYVQYAVVAYNLR 240
Biología no algoritmos
- Compara proteínas, no DNA
- deberá detectar aminoácidos similares no sólo identificarlos
¿Con qué frecuencia encontraríamos
parejas?
¿Cuantas familias de proteínas podría haber?
En 1983, hubo sólo un pequeño
porcentaje de genes del
genoma de varios organismos
distantes en la evolución
(hombre, mosca, levadura, e.
coli).
Similitudes inesperadas son deberían ser
extremadamente raras.
Estimando el número de familias de
proteínas
Primeras estimaciones del número
de familias de proteínas - ~1000
• Zuckerkandl,E. (1974) Accomplissement et
perspectives de la paleogenetique chimique. In: Ecole
de Roscoff –1974, p. 69. Paris:CNRS.
“The appearance of new structures and functions in
proteins during evolution”, J. Mol. Evol. 7, 1-57 (1975).
• Dayhoff, M.O. (1974) Federation Proceedings 33,
2314.
“The origin and evolution of protein superfamilies”,
Fed.Proc. 35, 2132-2138 (1976).
Margaret Dayhoff
Atlas de secuencia de proteínas y
estructura, Vol. 5, Suplemento 3 (1978) pg.
10:
“Se ha estimado que en humanos hay
aproximadamente 50,000 proteínas de
importancia funcional o médica. … Un
hito en la biología molecular ocurrirá
cuando un miembro de cada
superfamilia haya sido elucidado. A la
tasa actual de 25 por año, se logrará en
menos de 15 años.”
Hubris, el proyecto Genoma y
las familias de proteínas
Chothia, C. (1992). One thousand families for
the molecular biologist. Nature, 357, 543-544.
Green P, Lipman D, Hillier L, Waterson R,
States,D, and Claverie JM (1993). Ancient
Conserved Regions in New Gene Sequences
and the Protein Databases. Science, 259, 17111716.
ACR = similitud detectada entre secuencias de
organismos relacionados en forma distante
1992: ¿Qué nuevas familias tenemos
del proyecto genoma?
Códigos de
secuencias
Secuencias
con ACR
Set
N
humanos ESTs
2644
600-1200
197 (16-33%)
103
gusanos ESTs
1472
1370
570 (42%)
240
Genes de
gusanos
234
234
74 (32%)
59
Levadura ORF
182
182
43 (24%)
35
Comparación de sets
Secuencias
pareadas
ACR
ACR
ACR en base
de datos
gusano ESTs, humano ESTs
77, 66
34
31 (91%)
gusano ESTs, levadura ORFs
23, 13
9
8 (89%)
Gusano genes, humano ESTs
17, 17
12
12 (100%)
Gusano genes, levadura ORFs
6, 4
4
3 (75%)
humano ESTs, levadura ORFs
14, 13
10
10 (100%)
Crecimiento acumulado en número de proteínas y
número de dominios conservados
6
Green et al.
85% de ACR
100
6
1.0*10
8.0*10
6.0*10
4.0*10
2.0*10
80
5
Familias con dominio conservado
60
5
5
5
Dayhoff 10%
de superfamilias
40
Secuencia
20
de proteínas
0
0.0
1960 1965 1970 1975 1980 1985 1990 1995 2000
% Familias
Número de proteínas
1.2*10
¿Porqué pocas familias y por qué
evolucionan lentamente?
Típica
Muy rara
Vista estructural
Termodinámica:
Finkelstein, AV, “Why are
the same protein folds
used to perform different
functions?” FEBS 325,
pp. 23-28 (1993)
Forzamiento debido a función
biológica puede ser más importante
Compare pares de secuencias de clases
Un gene
de proteínas relacionadas
– Todas las secuencias deberán, al menos,
compartir similaridad estructural
Duplicación
de genes
– La divergencia de tiempos para todas las
secuencias deberá ser aproximadamente la
misma
– Secuencias dentro de una clase comparten
función pero secuencias entre clases tienen
función diferente
eucariotes
Grado de similitud en clases > similitud entre clases
indica la importancia de forzar debido a función
biológica.
Divergencia
funcional
Último
ancestro
universal
común
procariotes
Ejemplo de las Aminoacyl-tRNA
sintetasas (aaRS) (de E. Koonin y Y. Wolf)
•Dos clases no relacionadas de aaRS, cada una
incluyendo 10 aaRS relacionadas entre ellas
•El antecesor común universal (LUCA) de formas de vida
moderna ya tenía al menos 17 aaRS
•La duplicación da lugar a aaRS de diferentes
especialidades que debería ocurrir durante un
periodo corto relativamente de evolución temprana
•La evolución post-LUCA de fue más largo que las
fases tempranas cuando las especificidades
fueron establecidas. Sin embargo, los cambios que
ocurrieron después de que las aaRS fueron
encerradas en sus especificidades son pequeños
comparados a los cambios trazados en la fase
temprana.
Ortologs … (de S. Bryant)
Paralogs … (de S. Bryant)
Ejemplo de la Aminoaxyl-tRNA
sintetasas (aaRS) (de E. Koonin y Y. Wolf)
ArgRS
HisRS
1.0
1.0
0.8
0.8
0.6
o
0.6
o
0.4
n
0.4
n
0.2
0.2
0.0
0.0
0.00
0.10
0.20
0.30
0.40
0.00
0.10
ValRS
0.30
0.40
TrpRS
1.0
1.0
0.8
0.8
0.6
o
0.6
0.4
n
0.4
0.2
Excepciones glutamina/glutamato,asparagina/
aspartato y triptofano/tirosina
0.2
0.0
0.00
0.20
0.0
0.10
0.20
0.30
0.40
0.00
0.10
0.20
0.30
0.40
¿Cuantos genes humanos?
80,000
Antequera F & Bird A, “Number of CpG islands and
genes in human and mouse”, PNAS 90, 11995-11999 (1993).
120,000
Liang F et al., “Gene Index analysis of the human
genome estimates approximately 120,000 genes”, Nat. Gen.,
25, 239-240 (2000)
35,000
Ewing B & Green P, “Analysis of expressed
sequence tags indicates 35,000 human genes”, Nat. Gen. 25,
232-234 (2000)
28,000-34,000 Roest Crollius, H. et al., “Estimate of
human gene number Provided by genome-wide analysis
using Tetraodon nigroviridis DNA Sequence”, Nat. Gen. 25,
235-238 (2000).
41,000-45,000 Das M et al., “Assessment of the Total
Number of Human Transcription Units”, Genomics 77, 71-78
(2001)
¿Cuantos genes humanos con ACR?
(de S. Resenchuk, T.Tatusov, L. Wagner, A. Souverov)
12,245 RNAm caracterizados de RefSeq
78% tienen ACR, i.e., llegan fuera de
vertebrados en E <10e-6 ( 9,496/12,245)
90% de estos tienen predicciones de GenomeScan
correspondientes los cuales también tienen ACR
(8501/9496)
20,245 modelos GS para todo el genoma humano
tienen ACR
15,573 modelos GS después de la corrección por
división (20,245/1.3)
17,300 estimados genes humanos con
ACR ( ~15,573/.9)
¿Cuantos genes humanos?
17,303 estimados genes humanos con ACR
Ahora use la comparación de genomas
S.cerev.
ACR/
genes
S. Pombe
A.thal.
C. Elegans
D. mela.
4022/6306 4846/6593 14443/24605 11598/20850 10469/14335
63%
73%
58%
55%
73%
17,303/.55 = ~31,500 Total Genes Humanos
¡Más complicado que eso!
Conservación, nivel de expresión,
longitud de proteína y número exon
EST #
0
0-20
0-200
>200
All
RefSeq #
396
2716
9454
2791
12,245
RS + ACR
240 (61%)
1718 (63%) 7049 (75%) 2447 (88%) 9496 (78%)
GS + ACR
158 (66%)
1424 (83%) 6256 (89%) 2245 (92%) 8501 (90%)
Long. Prot.
319
419
486
517
493
Exon
3.82
promedio#
6.25
8.78
10.38
9.15
23,600 genes humanos estimados revisados con ACRs (~15,573/.66)
43,000 límite superior sobre el total
estimado de genes humanos (23,600/.55)
35,000 es más razonable límite con esta forma
La relación de conservación de la
proteína y longitud de la
secuencia
• Lipman DJ, Souvorov A, Koonin EV,
Panchenko AR, Tatusova TA
• BMC Evol Biol. 2002 2:20
140
E-coli
4279 120
proteínas
Número
100
80
60
40
20
0
0
200
400 Longitud 600
800
1000
Archaeoglobus fulgidus
100
80
2420
proteínas
Número
60
40
20
0
0
200
400
Longitud 600
800
1000
Levadura
400
6305 350
proteínas
Número
300
250
200
150
100
50
0
0
200
400 Longitud 600
800
1000
5
0
Drosophila
Número
2390 40
proteínas
30
20
10
0
0
200
400 Longitud
600
800
1000
300
Humano
250
14538
proteínas
Número
200
150
100
50
0
0
200
400
600
Longitud
800
1000
200
E-value 1.e-3
E-coli
4279 proteínas
Número
150
A
100
50
0
0
4279 proteínas
140
200
400
600
800
1000
Longitud
E-value 1.e-9
E-coli
120
Número
100
B
80
60
40
20
00
200
400
Longitud
600
800
1000
1.2
10
8
0.8
6
0.6
4
0.4
2
0.2
0
0
200
400
600
Longitud
800
0
1000
Densidad de contacto
Fracción
1
Agradecimientos
Steve Bryant
Lewis Geer
Alex Kondrashov
Eugene Koonin
Jim Ostell
Sergei Resenchuk
Greg Schuler
Alex Souverov
Tatiana Tatusov
Lukas Wagner
Yuri Wolf
Phil Murphy (NIAID)
Y todos mis colegas en NCBI y NIH