Clase_20 - Instituto de Ciencias Físicas

Download Report

Transcript Clase_20 - Instituto de Ciencias Físicas

Modelado por Homología: ¿Qué
hacer con las secuencias de
Proteínas?
Georgina Estrada Tapia
ICF-UNAM
[email protected]
Posgrado en Ciencias Biomédicas-UNAM
Cuernavaca, Morelos. Abril 01 de 2011
Esquema:
• Introducción a la estructura de proteínas & bases de
datos
• Prediction de estructura
– Ab-initio
– Threading
– Modelado por homología
• Ejercicio
• Evaluación del modelo
Secuencias
& Bases de Datos de Estructuras
Bases de Datos:
• RCSB- the Protein Data Bank- todas las estructuras depositadas
• UniProt- base de datos de secuencias de proteínas
– SwissProt
– Tremble
• NCBI- muchas bases de datos, incluye de secuencias y estructuras
• PDBsum- combina estructurales & de secuencias
UniProt- Base de datos de Secuencias de
Proteínas
• UniProt es una colaboración entre: European
Bioinformatics Institute (EBI), Swiss Institute of
Bioinformatics (SIB) y el Protein Information
Resource (PIR).
• En 2002, los tres institutos decidieron unir sus
recursos y conocimientos y formaron el consorcio
UniProt.
UniProt- Base de Datos de
Secuencias de Proteínas
PDB: http://www.pdb.org
Hecho: Más Secuencias que Estructuras
• Hay discrepancia entre el número de secuencias
conocidas y el de estructuras resueltas:
5,047,807 entradas en UniRef90 vs.
19988 90% de estructuras No redundantes
Los métodos computacionales son
necesarios para obtener más estructuras
Predicción de Estructura de Proteínas
¿Por qué predecir estructura si podemos
determinarla experimentalmente?
• Los métodos experimentales son lentos y caros y no
siempre es posible realizarlos
• Algunas estructuras no se pueden resolver
• Una estructura representativa de una familia puede
ser suficiente para deducir estructuras de la familia
completa de secuencias.
Esquema General
1.
Búsqueda de estructuras para una secuencia problema
2.
Elección de Patrón(es) [“Template”]
3.
Alineamiento de la secuencia con la estructura(s) Patrón
4.
Generación de un modelo para la proteína problema
usando información de la estructura patrón. (Ej.
MODELLER.- automodel)
Evaluación del modelo
5.
Fiser A et al. Methods in Enzymology 374: 461-491(2004)
2: Alignment correction
1: Template recognition
and initial alignment
4: Loop
modeling
5: Sidechain modeling
8: Iteration
7: Model
validation
6: Model
optimization
Ej.Minimización
con Dinámica
Molecural
(MD)
3: Backbone
generation
Model!
El Modelado por Homología requiere
del manejo de estructuras &
secuencias
• Proteína (secuencia) problema- solamente la secuencia está
disponible- se puede encontrar en UniProt
• Plantilla - después de su identificación, ambos tipos de datos
estructurales y de secuencia, se pueden corroborar en- UniPort (o
bases de datos de NCBI), RCSB y PDBsum
1. Búsqueda de Estructuras
•
Búsqueda de la secuencia contra secuencias del PDB
•
Búsqueda de perfiles
•
Threading: función de ajuste secuencia-estructura
1. Búsqueda de Estructuras
Si BLAST falla (PDB) para encontrar estructuras patrón adecuadas, usar servidores
para “fold recognition” (threading):
• FFAS03- http://ffas.ljcrf.edu/ffas-cgi/cgi/ffas.pl
• HHPRED- http://toolkit.tuebingen.mpg.de/hhpred
• HMAP (disponible a través de FUDGE pipeline)http://wiki.c2b2.columbia.edu/honiglab_public/index.php/Software:PUDGE
• I-TASSER- http://zhang.bioinformatics.ku.edu/I-TASSER/
Estos servidores no solamente encuentran patrones opcionales , también sugieren
el alineamiento por pares y en algunos casos hasta construyen modelo 3D.
2. Elección de Estructuras
Más de un Patrón
“The more the merrier” -
multiple structures with
the same fold:
3. Alineamiento de la secuencia
problema y la secuencia del
Patrón
1.
Crear un alineamiento multiple de secuencias (MSA) y
extraer el alineamiento por pares (pairwise).
2.
Usar información de estrcutura secundaria para optimizar
el alineamiento por pares- evitar ‘gaps’ en esas regiones!
Query
Template
3. Alineamiento de la secuencia
problema y la secuencia del
Patrón
Tips para el MSA
• ¿Dónde? (encontrar/buscar homólogos)
• Patrones o Plantillas Estructurales- búsqueda contra el PDB
• Homólogos secuenciales- búsqueda contra el SwissProt o
Uniprot (¡recomendada!)- generalmente usando BLAST
• ¿Cuántos?
• Tantos como sea posible, siempre y cuando el MSA se vea
bien…
Corrección del Alineamiento
E E E -A-V
F-D- I V V
• Determinantes Estructurales  conservados
P A
• Usar MSA
C
CC
• Deleciones en tu secuenciaR modificar gaps
R
M S
R
M
G
L
P
P
Estructura FDICRLPGSAEAV
Model FNVCRMP---EAI
Model FNVCR---MPEAI
 Alineamiento Correcto
3. Alineamiento de la secuencia
problema y el Patrón
Tips para el MSA
• ¿Qué tan extensas? (longitud de homólogos)
• Fragmentos- homólogos cortos (menos del 50,60% de la
longitud de la secuencia problema) = mal alineamiento
• Asegurarse que sus secuencias presentan el dominio(s)
requeridos
• N/C terminales tienden a variar en longitud entre homólogos
• ¿Qué tan parecidas? (distancia de la secuencia problema)
• Muy parecidas- no informativo
• Muchas muy lejanas- mal alineamiento
• Asegurarse de tener un grupo balanceado!
3. Alineamiento de la secuencia
problema y la secuencia del
Patrón
Tips para el MSA
• ¿De quienes? (a qué especies pertenecen las secuencias)
• No importa, todos los homólogos son bienvenidos
• Ortólogos/parálogos pueden ser útiles
• Secuencias de especies distantes/cercanas proveen diferentes
tipos de información
• ¿Cuáles métodos de alineamiento?
• Los mejores son MUSCLE, T-Coffee and MAFFT. Todos
disponibles en la página de EBI
3. Alineamiento de la secuencia
problema y la secuencia del
Patrón
Alineamiento de Sec. problema-templado
por “profile-to-profile”:
1. Construir un MSA para la secuencia, serviendo como perfil las
propiedades de la familia estructural.
2. Alinear el perfil con perfiles de todas las proteínas del PDB,
usando, por ej., FFAS03 o HHpred.
3. Comparar alineamientos por pares construídos por diferentes
métodos – esperando tener una predicción consenso…
3. Alineamiento de la secuencia
problema y la secuencia del
Patrón
Niveles diferentes de similitud entre el patrón & la proteína
problema (varios abordajes computacionales):
4.Construcción del modelo
Una vez que se tiene un buen alineamiento
Usar MODELLER para la construcción del
modelo!
http://salilab.org/modeller
5. Evaluación del modelo
• La precisión del modelo depende de la identidad
de la secuencia con la proteína patrón:
5. Evaluación
Estereoquímica -ProCheck
Links Útiles
1. Estructuras
–
PDB-Blast en NCBI- http://blast.ncbi.nlm.nih.gov/Blast.cgi
–
Meta server- 3D judry http://bioinfo.pl/meta/
–
FFAS03- http://ffas.ljcrf.edu/ffas-cgi/cgi/ffas.pl
–
HHPRED- http://toolkit.tuebingen.mpg.de/hhpred
–
FUDGE- pipelinehttp://wiki.c2b2.columbia.edu/honiglab_public/index.php/Software:PUDGE
2. Elección de estructura (s) patrón
3. Alineamiento de la secuencia problema con el o los templados
–
MSA - MUSCLE, T-coffee and MAFFT en
http://toolkit.tuebingen.mpg.de/sections/alignment
–
Editor de alineamiento – Bioedit - http://www.mbio.ncsu.edu/BioEdit/bioedit.html
4. Construcción del modelo
–
Nest - http://wiki.c2b2.columbia.edu/honiglab_public/index.php/Software:nest
–
Modeller - http://salilab.org/modeller/modeller.html
Automático:
- SwissModel: http://swissmodel.expasy.org//SWISS-MODEL.html
5. Evaluación del modelo
–
ConSurf http://consurf.tau.ac.il
–
PROCHECK http://www.biochem.ucl.ac.uk/~roman/procheck/procheck.html
–
WHATCHECK www.cmbi.kun.nl/swift/whatcheck/
–
ProSA https://prosa.services.came.sbg.ac.at/prosa.php
–
ProQ http://www.sbc.su.se/~bjornw/ProQ/ProQ.cgi
–
AT the Honig lab http://luna.bioc.columbia.edu/Model_Quality_Assessment/cgibin/Model_Quality_Assessment.cgi