Transcript Proteómica
Curs
Curs d’introducció
d’introducció aa la
la bioinformàtica
bioinformàtica
Plataforma Bioinformàtica de la UAB
Introducció a la Bioinformàtica
Bioinformàtica: la recerca
biomèdica in silico
© 2006 Plataforma Bioinformàtica de la UAB
Curs
Curs d’introducció
d’introducció aa la
la bioinformàtica
bioinformàtica
Plataforma Bioinformàtica de la UAB
Motivos, estructura
y función
© 2006 Plataforma Bioinformàtica de la UAB
Motivos y estructuras: Objetivos
•Análisis de la secuencia de aa de una proteína
•alineamiento con proteínas homólogas
•búsqueda de zonas conservadas
•Predecir la presencia de estructuras secundarias
•Analizar la presencia de motivos
© 2006 Plataforma Bioinformàtica de la UAB
Motivos y estructuras: estructura secundaria
Posibles estructuras secundarias
• Hélice
alfa
•Random
coil
• Hoja beta
• Giro beta
© 2006 Plataforma Bioinformàtica de la UAB
Motivos y estructuras: métodos de predicción
• Métodos de predicción de estructura secunadaria basados en el analisis
de la estructura primaria:
CHOU-FASMAN
DELEAGE&ROUX
GARNIER-ROBSON
Perfiles de densidad de carga
Perfiles de hidroafinidad (hidrofobicidad/hidrofilicidad)
Perfiles de flexibilidad. (flexibilidad de la cadena peptídica)
© 2006 Plataforma Bioinformàtica de la UAB
Motivos y estructuras: métodos de predicción
CHOU-FASMAN
• Método estadístico basado en estructuras cristalográficas ya resueltas
• Calcula un parámetro conformacional para cada residuo de la proteína
• Este parámetro refleja la preferencia de este residuo en hallarse en un
tipo de estructura determinado
• Inicialmente se basaron en 15 proteínas, después en 24 y finalmente en
64
• Cuatro grupos de proteínas: alfa, beta, alfa+beta, alfa/beta
Limitaciones: no se puede usar con proteínas muy distintas
a las 64 proteínas con la estructura conocida en que se
basa este método
© 2006 Plataforma Bioinformàtica de la UAB
Motivos y estructuras: métodos de predicción
DELEAGE&ROUX
-Método estadístico basado en tres pasos:
predicción de la clase de proteína (según comp. Aa)
predicción de la estructura secundaria (frecuencia de cada
residuo) nueva predicción optimizando parámetros
Limitaciones:si la predicción de la clase de proteína es
correcto, la predicción de estructura secundaria es más
acertada que en los otros métodos. Si la proteína no
queda bien clasificada, la predicción no es fiable.
© 2006 Plataforma Bioinformàtica de la UAB
Motivos y estructuras: métodos de predicción
GARNIER-ROBSON
-Método estadístico basado en estructuras cristalográficas ya
resueltas (25)
-No sólo tiene encuenta la preferencia de un aa por una
estructura, sino que además considera el entorno de este aa
(ventana de 16 aa)
-Fundamentalmente se basa en los ángulos f y y del enlace
peptídico y en los puentes de hidrógeno de las estructuras
secundarias.
Limitaciones:la proteína problema no debe diferir
substancialmente de las 25 proteínas de estructura
conocida.
© 2006 Plataforma Bioinformàtica de la UAB
Motivos y estructuras: métodos de predicción
Perfiles de hidroafinidad (hidrofobicidad/hidrofilicidad)
-Eisemberg moment
-Kyte-Doolitte
Perfiles de flexibilidad. (flexibilidad de la cadena peptídica)
-Karplus flexibility
Perfiles de probabilidad de encontrase en la superfície de la
proteína
-Emini surface probability
Perfiles de densidad de carga
-Charge density
© 2006 Plataforma Bioinformàtica de la UAB
Motivos y estructuras: métodos de predicción
Perfiles de hidroafinidad (hidrofobicidad/hidrofilicidad)
-Eisemberg moment
-Kyte-Doolitte
Perfiles de flexibilidad. (flexibilidad de la cadena peptídica)
-Karplus flexibility
Perfiles de probabilidad de encontrase en la superfície de la
proteína
-Emini surface probability
Perfiles de densidad de carga
-Charge density
© 2006 Plataforma Bioinformàtica de la UAB
Motivos y estructuras: métodos de predicción
• Métodos de predicción de estructura secunadaria basados NO solo en
el analisis de la estructura primaria:
Neural Networks Models
GOR – METHOD (Garnier, Ousguthorpe and Robson)
PSA – METHOD (Protein Sequence Analysis)
© 2006 Plataforma Bioinformàtica de la UAB
Motivos y estructuras: métodos de predicción
GOR – METHOD (Garnier, Ousguthorpe and Robson)
• Se basa en la consideración de que la estructura que
adoptan los aa que flanquean un determinado aa central
determinan la estructura que adapta este aa central.
• El método estudia los 8 aa N-terminales y los 8 aa Cterminal. Establece tres o cuatro (GOR III /GOR IV) matrices:
una cuando el aa central es alfa, otra para beta, otro para
random, y otra turn.
•Usa información teórica para la decisión final.
© 2006 Plataforma Bioinformàtica de la UAB
Motivos y estructuras: métodos de predicción
Neural Networks Models
Estos métodos contemplan tres niveles:
•El primer nivel: la preedición se realiza sobre alineamientos
múltiples
• El segundo nivel: se consideran los elementos de estructura
secundaria en las proteínas homologa
•El tercer nivel: promediar las predicciones obtenidas
independientemente.
© 2006 Plataforma Bioinformàtica de la UAB
Motivos y estructuras: Interpro
PSA – METHOD (Protein Sequence Analysis)
•Este método predice la estructura secundaria de
proteínas sin homología de secuencia y sin homología
de estructura.
•Se basa en 15 modelos matemáticos. Se han
establecido tres o cuatro superclases. Los modelos
matemáticos establecen las restricciones de cada tipo
de estructura alfa, beta, etc.. en cada superclase.
© 2006 Plataforma Bioinformàtica de la UAB
Motivos y estructuras: métodos de predicción
•http://cubic.bioc.columbia.edu/predictprotein/
http://us.expasy.org
•http://bmerc-www.bu.edu/
http://npsa-pbil.ibcp.fr/
© 2006 Plataforma Bioinformàtica de la UAB
Motivos y estructuras: Interpro
© 2006 Plataforma Bioinformàtica de la UAB
Motivos y estructuras: métodos de predicción
© 2006 Plataforma Bioinformàtica de la UAB
Motivos y estructuras: Interpro
© 2006 Plataforma Bioinformàtica de la UAB
Motivos y estructuras: Interpro
© 2006 Plataforma Bioinformàtica de la UAB
Motivos y estructuras: Interpro
© 2006 Plataforma Bioinformàtica de la UAB
Motivos y estructuras: Interpro
© 2006 Plataforma Bioinformàtica de la UAB
Motivos y estructuras: busqueda de motivos
Dominio/motivo/patron
•Muchas proteínas tienen estructura «modular»
•Estimación: ~ 3 dominios / proteína
•Dominios (secuencias o estructuras conservadas)
identificadas por alineamiento múltiple de secuencia
Métodos para definir dominios
•Patrones (expresión regular); usado en dominios muy
conservado
•Perfiles (matrices de pesos): tablas de dos dimensiones por
posición específicos para match-, gap-, y insertion, derivados
del alineamiento de secuencia de la familia, usado para
dominios menos conservado
•Hidden Markov Model (HMM); modelo probabilístico.
© 2006 Plataforma Bioinformàtica de la UAB
Motivos y estructuras: busqueda de motivos
Bancos de datos de motivos/familia
PROSITEPatrones / Perfiles
ProDom
Alineado de motivos (PSI-BLAST) (Pfam B)
PRINTS
Alineado de motivos
Pfam
HMM (Hidden Markov Models)
SMART
HMM
TIGRfam HMM
DOMO
Alineado de motivos
BLOCKS Alineado de motivos (PSI-BLAST)
CDD(CDART)
PSI-BLAST(PSSM) de Pfam y SMART
© 2006 Plataforma Bioinformàtica de la UAB
Motivos y estructuras: busqueda de motivos
•consiste en patrones y perfiles significativos biológicamente
•ayudar a determinar a que familia de proteínas pertenece la secuencia.
http://us.expasy.org/prosite/
© 2006 Plataforma Bioinformàtica de la UAB
Motivos y estructuras: busqueda de motivos
Generar Patrón Prosite
• G-H-E-x(2)-G-x(5)-[GA]-x(3)
© 2006 Plataforma Bioinformàtica de la UAB
Motivos y estructuras: busqueda de motivos
Ejemplo Patrón Prosite
<A-x-[ST](2)-x(3,5)-{V}
•< N-terminal
•x cualquier aa
•[ST] serina o treonina dos veces
•x(3,5) cualquier aa de 3 a 5 veces
•{V} cualquier aa excepto valina
© 2006 Plataforma Bioinformàtica de la UAB
Motivos y estructuras: busqueda de motivos
Patrón Prosite
•Http://www.expasy.org/prosite/
© 2006 Plataforma Bioinformàtica de la UAB
Motivos y estructuras: busqueda de motivos
Patrón Prosite
. Ventajas:
. Rápido y fácil de implementar.
. Los modelos son fáciles de comprender.
. Limitaciones:
. Pobre tratamiento de las inserciones/delecciones.
. Cuando los patrones son pequeños da muchos falsos
positivos.
. Los patrones largos son difíciles de ajustar al modelo.
. No nos proporciona un score, está o no está.
. ¿Cuándo usar los patrones?
. Para usar motivos pequeños o centros activos.
. Para describir un motivo de forma sencilla.
© 2006 Plataforma Bioinformàtica de la UAB
Motivos y estructuras: busqueda de motivos
Perfil Prosite
© 2006 Plataforma Bioinformàtica de la UAB
Motivos y estructuras: busqueda de motivos
Perfil Prosite
. Ventajas:
. Podemos especificar cuando ocurren inserciones o
delecciones.
. Nos proporciona un score.
. Se puede construir automáticamente.
. Limitaciones:
. Muy caro en tiempo de CPU.
. El software es más sofisticado.
. La lectura del patrón no es intuitiva.
© 2006 Plataforma Bioinformàtica de la UAB
Motivos y estructuras: Interpro
InterPro
InterPro integra:
•
•
•
•
•
Pfam
PROSITE
ProDom
SMART
TIGRFAMs
www.ebi.ac.uk/interpro
© 2006 Plataforma Bioinformàtica de la UAB
Motivos y estructuras: Interpro
InterPro
www.ebi.ac.uk/interpro
© 2006 Plataforma Bioinformàtica de la UAB
Ejercicio 1
Determinar la predicción de estructura secundaria de
las siguientes proteínas. Utilizar diferentes métodos y
decidir que tipo de estructura es el mayoritario.
Que proteasa utilitarias para aislar el C-terminal
(aprox 100 últimos aa) de la histona H10. Te serviría
esta misma proteasa para los otros subtipos
El C-terminal de esta proteína tiene putativos sitios
de fosforilacions para la CK2 y para la PKC.
© 2006 Plataforma Bioinformàtica de la UAB
Secuencias:
H10,
TENSTSAPAAKPKRAKASKKSTDHPKYSDMIVAAIQAEKNRAGSSRQSIQK
YIKSHYKVGENADSQIKLSIKRLVTTGVLKQTKGVGASGSFRLAKSDEPKKS
VAFKKTKKEIKKVATPKKASKPKKAASKAPTKKPKATPVKKAKKKLAATPKK
AKKPKTVKAKPVKASKPKKAKPVKPKAKSSAKRAGKKK
H12
SETAPAAPAAAPPAEKAPVKKKAAKKAGGTPRKASGPPVSELITKAVAASK
ERSGVSLAALKKALAAAGYDVEKNNSRIKLGLKSLVSKGTLVQTKGTGASG
SFKLNKKAASGEAKPKVKKAGGTKPKKPVGAAKKPKKAAGGATPKKSAKK
TPKKAKKPAAATVTKKVAKSPKKAKVAKPKKAAKSAAKAVKPKAAKPKVVK
PKKAAPKKK
H13
SETAPLAPTIPAPAEKTPVKKKAKKAGATAGKRKASGPPVSELITKAVAASK
ERSGVSLAALKKALAAAGYDVEKNNSRIKLGLKSLVSKGTLVQTKGTGASG
SFKLNKKAASGEGKPKAKKAGAAKPRKPAGAAKKPKKVAGAATPKKSIKKT
PKKVKKPATAAGTKKVAKSAKKVKTPQPKKAAKSPAKAKAPKPKAAKPKSG
KPKVTKAKKAAPKKK
© 2006 Plataforma Bioinformàtica de la UAB
Ejercicio 2
Para una proteína dada (ejemplo TDF humana):
• ¿Cómo saber si contiene dominios
funcionales?
•¿Qué otras proteínas contienen ese mismo
dominio funcional?
© 2006 Plataforma Bioinformàtica de la UAB
Ejercico 3:
Has realizado un protocoloo de purificaciónn de
la prothymosin alfa humana (Q15200). En lugar
de obtener una sola proteína, obtienes tres, con
las siguientes características:
proteína 1 Mr: 16000 pI: 7
proteína 2 Mr: 12000 pI: 3.7
proteina 3 Mr: 11000 pI: 6
Cual de ellas es la correcta,
Que estrategia puedes utilizar para comprobar
que realmente esta es tu proteína.
© 2006 Plataforma Bioinformàtica de la UAB
•Ejercicio 4:
El domino globular de la histona H5 (1Hst) se ha
resuelto por cristalografía.
Quieres estudiar la estabilidad de la primera hélice
alfa.
Que aproximación puedes seguir.
© 2006 Plataforma Bioinformàtica de la UAB
•Ejercicio 5: Construir un Patrón
© 2006 Plataforma Bioinformàtica de la UAB