Transcript 375884
Curso de doctorado “Estructura y Función de Macromoléculas” TÉCNICAS DE SECUENCIACIÓN DE PROTEÍNAS Fundamentos de la Proteómica Clásica MAPAS DE PÉPTIDOS. IDENTIFICACIÓN DE PROTEÍNAS A PARTIR DE PÉPTIDOS Alberto Jorge García Laboratorio de Química de Proteínas y Proteómica CBM-SO. CSIC-UAM [email protected] Aproximaciones Clásicas para el Análisis del Proteoma Geles 1D ó 2D Transferencia a PVDF Digestión bandas (1D) o spots (2D) Extracción de péptidos MALDI-TOF (PMF) Búsqueda DB Identificación proteína LC-ESI-MS/MS Secuenciación automática Separación HPLC colección de fracciones Desalado nano-ESI-MS/MS Secuenciación manual Degradación de Edman Análisis PTMs “De Novo” Secuenciación N-terminal Identificación de una proteína PROTEÍNA: Conjunto de aminoácidos ordenados en una secuencia específica para dar lugar a una propiedad o actividad definida Para la identificación de una proteína se necesita obtener información de la misma que sea única para esa proteína en particular pI ó MW no siempre permiten hacer una asignación única ? Técnicas Clásicas en Química de Proteínas ANÁLISIS DE AMINOÁCIDOS 1. Hidrólisis de péptidos o proteínas Ácida (6M HCl, 110 ºC, 18-24h) Alcalina (NaOH 4.2N) R-CO-NH-R´ + H2O R-COOH + 2HN-R´ 2. Separación y detección de los aminoácidos por HPLC 3. Mediante comparación con patrones de aminoácidos: Identificación Cuantificación tiempo de retención en la columna área de los picos Técnicas Clásicas en Química de Proteínas Análisis de aminoácidos 16 14 12 10 8 6 4 2 0 G A S P V T C I L D K E M H F R Y Permite conocer la composición de aminoácidos de una proteína pero no la secuencia de la misma Técnicas Clásicas en Química de Proteínas DEGRADACIÓN DE EDMAN (1950) Las proteínas son “degradadas” en su extremo N-terminal mediante el acoplamiento de feniltioisocianato (PITC) La reacción se divide en tres etapas: - Acoplamiento - Ruptura - Conversión Durante un ciclo de reacción el residuo N-term. del polipéptido es cortado y analizado por HPLC Queda libre el extremo N-term. del segundo residuo susceptible de un nuevo ciclo Se obtiene una secuencia de aminoácidos con tantos residuos como ciclos de reacción Técnicas Clásicas en Química de Proteínas N-term-aa1-aa2-aa3-aa4-aa5-aa6-C-term CICLO 1 N-term-aa2-aa3-aa4-aa5-aa6-C-term + PTH-aa1 CICLO 2 N-term-aa3-aa4-aa5-aa6-C-term + PTH-aa2 CICLO 3 N-term-aa4-aa5-aa6-C-term + PTH-aa3 CICLO 4 N-term-aa5-aa6-C-term + PTH-aa4 ... Técnicas Clásicas en Química de Proteínas Separación cromatográfica de una mezcla patrón de PTH-aas S-fosfo Técnicas Clásicas en Química de Proteínas Vigentes hasta hace poco más de 4-5 años Identificación “textual” de la proteína Estudios muy costosos Pormenorizados Muy lentos Mantenimiento complicado Reacciones secundarias no deseables Información limitada Peptide Mass Fingerprinting (PMF) EVOLUCIÓN HISTÓRICA Necesidad de desarrollar una técnica que permitiese aumentar la velocidad de análisis de las proteínas, cuyo objetivo inicial fue determinar de una forma rápida cuáles eran las proteínas más abundantes de una muestra que, generalmente, no son las de interés Los métodos de ionización empleados entonces en espectrometría de masas (FAB y PDMS) eran incapaces de producir iones de proteínas mayores de 20 kDa y necesitaban gran cantidad de muestra El desarrollo, a principios de los 90, de técnicas de ionización suave (MALDI y ESI) que permitían el análisis de cantidades menores (inferiores al pmol) y podían trabajar con proteínas de hasta 100 kDa tuvo un gran impacto en el PMF Peptide Mass Fingerprinting (PMF) HIPÓTESIS Si se corta una proteína de forma predecible, los tamaños de las piezas obtenidas conformarán la “huella peptídica” de esa proteína Si cada proteína presente en una DB puede ser cortada “in silico” de la misma forma, la huella peptídica permitirá la identificación de la proteína Peptide Mass Fingerprinting (PMF) PROCEDIMIENTO El “corte” de la proteína se realiza mediante digestión enzimática utilizando proteasas que rompen la proteína generando un determinado número de péptidos La “huella peptídica” de una proteína dependerá de la proteasa empleada, pero es única para cada una de ellas Tripsina Corta R-X y K-X excepto si X=P Peptide Mass Fingerprinting (PMF) >sp|P02769|ALBU_BOVIN Serum albumin precursor (Allergen Bos d 6) (BSA) – Bos taurus (Bovine) MKWVTFISLLLLFSSAYSRGVFRRDTHKSEIAHRFKDLGEEHFKGLVLIAFSQYLQQCPFDEHVKLVNELTEFAKTCVADESH AGCEKSLHTLFGDELCKVASLRETYGDMADCCEKQEPERNECFLSHKDDSPDLPKLKPDPNTLCDEFKADEKKFWGKYLY EIARRHPYFYAPELLYYANKYNGVFQECCQAEDKGACLLPKIETMREKVLASSARQRLRCASIQKFGERALKAWSVARLSQK FPKAEFVEVTKLVTDLTKVHKECCHGDLLECADDRADLAKYICDNQDTISSKLKECCDKPLLEKSHCIAEVEKDAIPENLPPLT ADFAEDKDVCKNYQEAKDAFLGSFLYEYSRRHPEYAVSVLLRLAKEYEATLEECCAKDDPHACYSTVFDKLKHLVDEPQNLI KQNCDQFEKLGEYGFQNALIVRYTRKVPQVSTPTLVEVSRSLGKVGTRCCTKPESERMPCTEDYLSLILNRLCVLHEKTPVS EKVTKCCTESLVNRRPCFSALTPDETYVPKAFDEKLFTFHADICTLPDTEKQIKKQTALVELLKHKPKATEEQLKTVMENFVAF VDKCCAADDKEACFAVEGPKLVVSTQTALA Secuencia Parcial K R PK LK EK MK HK LR FK QR ALK LAK VTK VHK QIK FPK SLGK VGTR YTR CCTK PM M+H+ 147,11786 175,1239 244,17086 260,20186 276,15986 278,15786 284,17677 288,2079 294,18586 303,1819 331,23886 331,23886 347,23386 383,24477 388,25986 391,23886 404,25486 432,2609 439,2349 454,18386 Secuencia Parcial ADEK DVCK LSQK GVFR DTHK FGER ADLAK FWGK VASLR ECCDK PLLEK AFDEK PESER CASIQK IETMR QEPER TPVSEK AWSVAR GACLLPK VLASSAR PM M+H+ 462,22386 464,22186 475,29186 478,2809 500,25177 508,2549 517,30286 537,28586 545,3449 597,20486 599,38086 609,29186 617,2929 649,33786 649,3379 658,3189 660,36086 689,3769 701,40586 703,4139 Secuencia Parcial SEIAHR CCAADDK NYQEAK LVTDLTK ATEEQLK LCVLHEK DDSPDLPK AEFVEVTK YLYEIAR DLGEEHFK NECFLSHK LVVSTQTALA QNCDQFEK QTALVELLK SHCIAEVEK CCTESLVNR EACFAVEGPK LVNELTEFAK PDPNTLCDEFK HPEYAVSVLLR PM M+H+ 712,37781 725,26386 752,36076 789,47686 818,42886 841,46377 886,42086 922,49086 927,4969 974,46077 977,45467 1002,5869 1011,4228 1014,6229 1015,4908 1024,4588 1050,4949 1163,6338 1278,5718 1283,7138 Secuencia Parcial HLVDEPQNLIK TCVADESHAGCEK SLHTLFGDELCK ETYGDMADCCEK YICDNQDTISSK EYEATLEECCAK TVMENFVAFVDK LGEYGFQNALIVR DDPHACYSTVFDK VPQVSTPTLVEVSR DAFLGSFLYEYSR ECCHGDLLECADDR YNGVFQECCQAEDK PCFSALTPDETYVPK MPCTEDYLSLILNR LFTFHADICTLPDTEK HPYFYAPELLYYANK DAIPENLPPLTADFAEDK WVTFISLLLLFSSAYSR GLVLIAFSQYLQQCPFDEHVK PM M+H+ 1305,7197 1349,5488 1362,6758 1364,4829 1386,6248 1388,5729 1399,6948 1479,7968 1497,6358 1511,8459 1567,7449 1578,6008 1633,6628 1667,8029 1667,8168 1850,9038 1888,9297 1955,9638 2003,1029 2435,2428 Peptide Mass Fingerprinting (PMF) Produce una digestión teórica de todas las proteínas presentes en una DB con una enzima específica Compara esas masas teóricas con las masas observadas experimentalmente Asigna una puntuación (score) a los péptidos/proteínas que coinciden en función del grado de coincidencia Peptide Mass Fingerprinting (PMF) MAPAS TEÓRICOS 2000.0 2000.0 2500.0 2500.0 3000.0 3000.0 3500.0 3500.0 4000.0 4000.0 4500.0 MAPA EXPERIMENTAL 5000.0 4500.0 5000.0 2000.0 2000.0 2500.0 2000.0 2500.0 3000.0 3000.0 3500.0 3500.0 4000.0 4000.0 4500.0 4500.0 2500.0 3000.0 3500.0 4000.0 4500.0 5000.0 5000.0 5000.0 Cortesía de Bruker Daltonics Peptide Mass Fingerprinting (PMF) Intens. [a.u.] Mapa MALDI-TOF de un digerido en gel de BSA 1479.859 1163.692 5000 927.541 1439.863 4000 3000 1415.681 2000 1639.999 1163.692 1000 1283.739 1823.962 1955.951 830.441 1823.962 1163.692 1823.962 1823.962 0 800 1000 1200 1400 1600 1800 2000 2200 2400 m/z Búsqueda en las Bases de Datos En la actualidad hay disponibles en la web varios motores de búsqueda: MASCOT: http://matrixscience.com ProFound: http://129.85.19.192/profound_bin/WebProFound.exe MS-Fit: http://prospector.ucsf.edu/ucsfhtml4.0/msfit.htm PeptIdent: http://ua.expasy.org/tools/peptident.html Aldente: http://ua.expasy.org/tools/aldente.html Búsqueda en las Bases de Datos Parámetros de búsqueda: BASES DE DATOS Parámetros de búsqueda: BASES DE DATOS SwissProt - DB con bajo nivel de redundancia - Gran nº de anotaciones (función, variantes de secuencia, etc) MSDB - DB de proteínas no idénticas - Diseñada específicamente para aplicaciones de MS NCBInr - DB de ác. nucléicos y proteínas no idénticas - Las entradas han sido compiladas a partir de traducciones de GenBank, PIR, SWISS-PROT, PRF y PDB - Es la mayor y la que más frecuentemente se actualiza No utilizadas para PMF: dbEST: Random: DB de “Expressed Sequence Tags” OWL: DB de proteínas no idénticas. Sin actualizar desde 1999 DB de secuencias aleatorias. Utilizada para la verificación estadística de los resultados Parámetros de búsqueda: TAXONOMÍA Parámetros de búsqueda: TAXONOMÍA Permite limitar la búsqueda a entradas de un grupo de especies o una especie en particular aumentando la velocidad de la búsqueda Inconveniente: Falta de un sistema riguroso para especificar la taxonomía en las DB ¡! Los principales problemas son: • • • • • El texto de una entrada puede no especificar la taxonomía Hay múltiples nombres para una única especie (homo sapiens, human, man) Existen nombres con errores (homo sapeins) Reclasificación continua de especies En las DBnr, una única entrada puede representar secuencias idénticas pertenecientes a múltiples especies Parámetros de búsqueda: ENZIMA Cleave Trypsin KR P CTERM Arg-C R P CTERM Asp-N BD NTERM Asp-N_ambic DE NTERM Chymotrypsin FYWL CNBr M CTERM Formic_acid D CTERM Lys-C K Lys-C/P K CTERM PepsinA FL CTERM Tryp-CNBr KRM P CTERM TrypChymo FYWLKR P CTERM Trypsin/P KR V8-DE BDEZ P CTERM V8-E EZ P CTERM CNBr+Trypsin “None” “SemiTrypsin” Don't cleave Name P P CTERM CTERM CTERM M KR N or C term CTERM P CTERM Para péptidos que no se han originado a partir de una digestión enzimática (ej. MHC) No es una buena elección para PMF Para péptidos producto de un doble corte inespecífico Parámetros de búsqueda: MISSED CLEAVAGES ¡! Es conveniente no especificar más de 2 cortes parciales ya que el aumento supone incrementar el número de péptidos a los que se enfrentarán los datos experimentales con lo cual: Aumenta el tiempo de búsqueda Aumenta el número de asignaciones aleatorias Disminuye la discriminación y la puntuación final Parámetros de búsqueda: MODIFICACIONES Parámetros de búsqueda: MODIFICACIONES FIJAS • Modificación aplicada universalmente • No produce aumento en el número de péptidos Ej. Carbamidomethyl (C) + 57 Da C 103 Da 160 Da VARIABLES • Modificación que puede o no estar presente • Se buscan todas las posibles combinaciones para encontrar la mejor asignación Ej. Oxidation (M) + 16 Da AIMCTHDMEYWMK AIMCTHDMEYWMK AIMCTHDMEYWMK AIMCTHDMEYWMK AIMCTHDMEYWMK AIMCTHDMEYWMK AIMCTHDMEYWMK AIMCTHDMEYWMK ¡! • Cada modif. variable puede generar varios péptidos adicionales para ser testados: Aumenta el tiempo de búsqueda Aumenta el número de asignaciones aleatorias Disminuye la discriminación y la puntuación final Parámetros de búsqueda: MODIFICACIONES Modificaciones causadas por la preparación de la muestra: Plata Coomassie / Sypro Variables Met oxidada (+16 Da) 1-D Propionamida (+71 Da) C-betamercapto (+76 Da) Fijas - Variables Fijas Met oxidada (+16Da) - Propionamida (+71 Da) C-betamercapto (+76 Da) C-carbamidometilada (+57 Da) 2-D Met oxidada C-carbamidometilada (+16 Da) (+ 57 Da) Met oxidada C-carbamidometilada (+ 57 Da) (+16 Da) Parámetros de búsqueda: MODIFICACIONES Modificaciones Post-traduccionales: Juegan un papel fundamental en la funcionalidad de las proteínas Las más comunes son: Acetilación N-terminal: Induce un incremento en la ionización del +42 Da péptido produciendo picos muy intensos Fosforilación (S, T, Y): Dificulta la ionización. Es más difícil de +80 Da detectar por PMF Si estamos seguros de que nuestra proteína está modificada podemos: Seleccionar la modificación como variable (menos recomendable) Buscar el péptido modificado en el mapa Deberá aparecer con un desplazamiento en m/z equivalente a la modificación Parámetros de búsqueda: MW DE LA PROTEÍNA Parámetros de búsqueda: MW DE LA PROTEÍNA ¡! La mayoría de las entradas en las DB corresponden a la forma menos procesada de la proteína Si se restringe la búsqueda a un rango muy estrecho en torno al MW Alta probabilidad de que se produzca una asignación errónea MASCOT MW límite superior Permite encontrar asignaciones correspondientes a: Proteínas de menor MW Proteínas de mayor MW Extendiendo la secuencia como máximo una longitud igual a MW especificado Parámetros de búsqueda: MW DE LA PROTEÍNA Ejemplo : INS_BOVIN (SwissProt) PRECURSOR (incl. pépt. señal y conectores) MW 11394 Da Procesamiento posterior a la traducción INSULINA (MW 5734 Da) 5734 Da x 2 = 11468 Da > Límite superior de la búsqueda en MASCOT superior al MW de la forma menos procesada de la proteína 11394 Da Alta probabilidad de que la asignación sea correcta Parámetros de búsqueda: TOLERANCIA DE LOS PÉPTIDOS Es el margen de error permitido para las masas experimentales de los péptidos Parámetros de búsqueda: TOLERANCIA DE LOS PÉPTIDOS Unidades: % mmu Da ppm fracción expresada como porcentaje unidades absolutas de mili-masa (ej. unidades de .001 Da) unidades absolutas de Da fracción expresada como partes por millón búsqueda de un péptido de 1000.00 Da 100 ppm se busca entre 999.90 Da y 1000.10 Da La tolerancia permitida dependerá de la exactitud de masa del equipo y de la calibración exactitud tolerancia probabilidad buena asignación Parámetros de búsqueda: VALORES DE MASAS Modo Lineal Modo Reflector Average Monoisotópico (mayor resolución) Parámetros de búsqueda: DATA FILE OR QUERY Data file: Formato ASCII (texto simple). Si se especifica, MASCOT ignora Query Parámetros de búsqueda: LISTA DE MASAS ¡! Para PMF se emplea una lista de masas donde no se tiene en cuenta la intensidad de los picos ¡Inconveniente! Principalmente si se trabaja a alta sensibilidad donde la intensidad de los péptidos es semejante a la de los contaminantes (matriz, queratinas, autolisis de tripsina) Ej. Proteína 20 KDa. Digestión triptica Lista de 100 masas 20-40 péptidos 60-80 péptidos son ruido o contaminantes Probabilidad de asignaciones aleatorias Parámetros de búsqueda: LISTA DE MASAS Método óptimo: Buen rendimiento de digestión Correcta manipulación de la muestra Equipo que permita buena resolución y exactitud de masa Adecuada calibración Adquisición del espectro idónea Conocer las masas de los contaminantes Parámetros de búsqueda: OVERVIEW AND REPORT HITS Número máximo de resultados a mostrar Incluye en los resultados una tabla descriptiva AUTO: muestra sólo las proteínas con puntuación significativa Ejemplo real Digerido en gel de BSA Start Search ... RESULTADOS Zona de incertidumbre Albumin (Bos taurus) RESULTADOS Index RESULTADOS Results List RESULTADOS Overview Table gi|418694 gi|30794280 RESULTADOS Protein View RESULTADOS Protein View Interpretación de los Resultados He identificado una proteína pero... ¿Es realmente correcta la identificación? Análisis cuidadoso de los resultados Del total de masas experimentales, ¿cuántas “encajan” con la proteína? Las masas asignadas a la proteína, ¿son las más abundantes del espectro? ¿Cuánto se aleja nuestro resultado de la zona de incertidumbre? Coincidencia del resultado empleando distintos motores de búsqueda Coincidencia del resultado haciendo la digestión con distintas proteasas Interpretación de los Resultados ¿El resultado apoya lo que se conoce previamente? Coincidencia de la especie, tejido, compartimento subcelular, etc Coincidencia del MW Precauciones: MW obs. > MW esp. En DB, forma menos procesada ¿MW esp. es de una prot. degradada? MW obs. < MW esp. ¿La prot. es oligomérica y observamos una subunidad? ... Ventajas y Limitaciones del PMF VENTAJAS Análisis rápido y con bajo coste Alta sensibilidad Aplicable para un elevado número de muestras LIMITACIONES La proteína debe estar en la DB o presentar un alto grado de homología con proteínas presentes para poder ser identificada No aplicable para proteínas menores de 15 kDa o proteínas con alto número de modificaciones Dificil identificación de mezclas de proteínas Aplicaciones Identificación de proteínas Determinación de la localización subcelular Identificación de sustratos de proteínas quinasas Determinación de la identidad de una proteína asociada con una determinada actividad observada Identificación de complejos de interacción Bibliografía Protein Identification General Yates, JR, 3rd, Database searching using mass spectrometry data. Electrophoresis, 19(6) 893-900 (1998). Bleasby, AJ and Wootton, JC, Construction of validated, non-redundant composite protein sequence databases. Protein Eng., 3(3) 153-9 (1990). Peptide Mass Fingerprint Pappin, DJC, Hojrup, P and Bleasby, AJ, Rapid identification of proteins by peptide-mass fingerprinting. Curr. Biol., 3(6) 327-32 (1993). James, P, Quadroni, M, Carafoli, E and Gonnet, G, Protein identification in DNA databases by peptide mass fingerprinting. Protein Sci, 3(8) 1347-50 (1994). Sequence Query Mann, M and Wilm, M, Error-tolerant identification of peptides in sequence databases by peptide sequence tags. Anal Chem, 66(24) 4390-9 (1994). Pappin, DJC, Rahman, D, Hansen, HF, Bartlet-Jones, M, Jeffery, W and Bleasby, AJ, Chemistry, mass spectrometry and peptide-mass databases: Evolution of methods for the rapid identification and mapping of cellular proteins. Mass Spectrom. Biol. Sci., 135-50 (1996).