Transcript 375884

Curso de doctorado
“Estructura y Función de Macromoléculas”
TÉCNICAS DE SECUENCIACIÓN DE PROTEÍNAS
Fundamentos de la Proteómica Clásica
MAPAS DE PÉPTIDOS. IDENTIFICACIÓN DE
PROTEÍNAS A PARTIR DE PÉPTIDOS
Alberto Jorge García
Laboratorio de Química de Proteínas y Proteómica
CBM-SO. CSIC-UAM
[email protected]
Aproximaciones Clásicas para el Análisis del Proteoma
Geles 1D ó 2D
Transferencia a PVDF
Digestión bandas (1D) o spots (2D)
Extracción de péptidos
MALDI-TOF
(PMF)
Búsqueda DB
Identificación
proteína
LC-ESI-MS/MS
Secuenciación automática
Separación HPLC
colección de fracciones
Desalado
nano-ESI-MS/MS
Secuenciación manual
Degradación de Edman
Análisis PTMs
“De Novo”
Secuenciación N-terminal
Identificación de una proteína
PROTEÍNA: Conjunto de aminoácidos ordenados en una secuencia específica
para dar lugar a una propiedad o actividad definida
Para la identificación de una proteína se necesita obtener información
de la misma que sea única para esa proteína en particular
pI ó MW no siempre permiten
hacer una asignación única
?
Técnicas Clásicas en Química de Proteínas
ANÁLISIS DE AMINOÁCIDOS
1. Hidrólisis de péptidos o proteínas
Ácida
(6M HCl, 110 ºC, 18-24h)
Alcalina
(NaOH 4.2N)
R-CO-NH-R´ + H2O
R-COOH + 2HN-R´
2. Separación y detección de los aminoácidos por HPLC
3. Mediante comparación con patrones de aminoácidos:
Identificación
Cuantificación
tiempo de retención en la columna
área de los picos
Técnicas Clásicas en Química de Proteínas
Análisis de aminoácidos
16
14
12
10
8
6
4
2
0
G
A
S
P
V
T
C
I
L
D
K
E
M
H
F
R
Y
Permite conocer la composición de
aminoácidos de una proteína pero no la
secuencia de la misma
Técnicas Clásicas en Química de Proteínas
DEGRADACIÓN DE EDMAN (1950)
 Las proteínas son “degradadas” en su extremo N-terminal
mediante el acoplamiento de feniltioisocianato (PITC)
 La reacción se divide en tres etapas:
- Acoplamiento
- Ruptura
- Conversión
 Durante un ciclo de reacción el residuo N-term. del polipéptido
es cortado y analizado por HPLC
 Queda libre el extremo N-term. del segundo residuo susceptible
de un nuevo ciclo
 Se obtiene una secuencia de aminoácidos con tantos residuos
como ciclos de reacción
Técnicas Clásicas en Química de Proteínas
N-term-aa1-aa2-aa3-aa4-aa5-aa6-C-term
CICLO 1
N-term-aa2-aa3-aa4-aa5-aa6-C-term + PTH-aa1
CICLO 2
N-term-aa3-aa4-aa5-aa6-C-term + PTH-aa2
CICLO 3
N-term-aa4-aa5-aa6-C-term + PTH-aa3
CICLO 4
N-term-aa5-aa6-C-term + PTH-aa4
...
Técnicas Clásicas en Química de Proteínas
Separación cromatográfica de una mezcla patrón de PTH-aas
S-fosfo
Técnicas Clásicas en Química de Proteínas
 Vigentes hasta hace poco más de 4-5 años
 Identificación “textual” de la proteína
 Estudios muy costosos
 Pormenorizados
 Muy lentos
 Mantenimiento complicado
 Reacciones secundarias no deseables
 Información limitada
Peptide Mass Fingerprinting (PMF)
EVOLUCIÓN HISTÓRICA
 Necesidad de desarrollar una técnica que permitiese aumentar
la velocidad de análisis de las proteínas, cuyo objetivo inicial fue
determinar de una forma rápida cuáles eran las proteínas más
abundantes de una muestra que, generalmente, no son las de
interés

Los métodos de ionización empleados entonces en
espectrometría de masas (FAB y PDMS) eran incapaces de
producir iones de proteínas mayores de 20 kDa y necesitaban gran
cantidad de muestra
 El desarrollo, a principios de los 90, de técnicas de ionización
suave (MALDI y ESI) que permitían el análisis de cantidades
menores (inferiores al pmol) y podían trabajar con proteínas de
hasta 100 kDa tuvo un gran impacto en el PMF
Peptide Mass Fingerprinting (PMF)
HIPÓTESIS
Si se corta una proteína de forma predecible,
los tamaños de las piezas obtenidas
conformarán la “huella peptídica” de esa
proteína
Si cada proteína presente en una DB puede
ser cortada “in silico” de la misma forma, la
huella peptídica permitirá la identificación de
la proteína
Peptide Mass Fingerprinting (PMF)
PROCEDIMIENTO
 El “corte” de la proteína se realiza mediante digestión
enzimática utilizando proteasas que rompen la proteína
generando un determinado número de péptidos
 La “huella peptídica” de una proteína dependerá de la
proteasa empleada, pero es única para cada una de ellas
Tripsina
Corta R-X y K-X excepto si X=P
Peptide Mass Fingerprinting (PMF)
>sp|P02769|ALBU_BOVIN Serum albumin precursor (Allergen Bos d 6) (BSA) – Bos taurus (Bovine)
MKWVTFISLLLLFSSAYSRGVFRRDTHKSEIAHRFKDLGEEHFKGLVLIAFSQYLQQCPFDEHVKLVNELTEFAKTCVADESH
AGCEKSLHTLFGDELCKVASLRETYGDMADCCEKQEPERNECFLSHKDDSPDLPKLKPDPNTLCDEFKADEKKFWGKYLY
EIARRHPYFYAPELLYYANKYNGVFQECCQAEDKGACLLPKIETMREKVLASSARQRLRCASIQKFGERALKAWSVARLSQK
FPKAEFVEVTKLVTDLTKVHKECCHGDLLECADDRADLAKYICDNQDTISSKLKECCDKPLLEKSHCIAEVEKDAIPENLPPLT
ADFAEDKDVCKNYQEAKDAFLGSFLYEYSRRHPEYAVSVLLRLAKEYEATLEECCAKDDPHACYSTVFDKLKHLVDEPQNLI
KQNCDQFEKLGEYGFQNALIVRYTRKVPQVSTPTLVEVSRSLGKVGTRCCTKPESERMPCTEDYLSLILNRLCVLHEKTPVS
EKVTKCCTESLVNRRPCFSALTPDETYVPKAFDEKLFTFHADICTLPDTEKQIKKQTALVELLKHKPKATEEQLKTVMENFVAF
VDKCCAADDKEACFAVEGPKLVVSTQTALA
Secuencia
Parcial
K
R
PK
LK
EK
MK
HK
LR
FK
QR
ALK
LAK
VTK
VHK
QIK
FPK
SLGK
VGTR
YTR
CCTK
PM
M+H+
147,11786
175,1239
244,17086
260,20186
276,15986
278,15786
284,17677
288,2079
294,18586
303,1819
331,23886
331,23886
347,23386
383,24477
388,25986
391,23886
404,25486
432,2609
439,2349
454,18386
Secuencia
Parcial
ADEK
DVCK
LSQK
GVFR
DTHK
FGER
ADLAK
FWGK
VASLR
ECCDK
PLLEK
AFDEK
PESER
CASIQK
IETMR
QEPER
TPVSEK
AWSVAR
GACLLPK
VLASSAR
PM
M+H+
462,22386
464,22186
475,29186
478,2809
500,25177
508,2549
517,30286
537,28586
545,3449
597,20486
599,38086
609,29186
617,2929
649,33786
649,3379
658,3189
660,36086
689,3769
701,40586
703,4139
Secuencia
Parcial
SEIAHR
CCAADDK
NYQEAK
LVTDLTK
ATEEQLK
LCVLHEK
DDSPDLPK
AEFVEVTK
YLYEIAR
DLGEEHFK
NECFLSHK
LVVSTQTALA
QNCDQFEK
QTALVELLK
SHCIAEVEK
CCTESLVNR
EACFAVEGPK
LVNELTEFAK
PDPNTLCDEFK
HPEYAVSVLLR
PM
M+H+
712,37781
725,26386
752,36076
789,47686
818,42886
841,46377
886,42086
922,49086
927,4969
974,46077
977,45467
1002,5869
1011,4228
1014,6229
1015,4908
1024,4588
1050,4949
1163,6338
1278,5718
1283,7138
Secuencia
Parcial
HLVDEPQNLIK
TCVADESHAGCEK
SLHTLFGDELCK
ETYGDMADCCEK
YICDNQDTISSK
EYEATLEECCAK
TVMENFVAFVDK
LGEYGFQNALIVR
DDPHACYSTVFDK
VPQVSTPTLVEVSR
DAFLGSFLYEYSR
ECCHGDLLECADDR
YNGVFQECCQAEDK
PCFSALTPDETYVPK
MPCTEDYLSLILNR
LFTFHADICTLPDTEK
HPYFYAPELLYYANK
DAIPENLPPLTADFAEDK
WVTFISLLLLFSSAYSR
GLVLIAFSQYLQQCPFDEHVK
PM
M+H+
1305,7197
1349,5488
1362,6758
1364,4829
1386,6248
1388,5729
1399,6948
1479,7968
1497,6358
1511,8459
1567,7449
1578,6008
1633,6628
1667,8029
1667,8168
1850,9038
1888,9297
1955,9638
2003,1029
2435,2428
Peptide Mass Fingerprinting (PMF)
Produce una digestión teórica de todas las
proteínas presentes en una DB con una enzima
específica
Compara esas masas teóricas con las masas
observadas experimentalmente
Asigna
una
puntuación
(score)
a
los
péptidos/proteínas que coinciden en función del
grado de coincidencia
Peptide Mass Fingerprinting (PMF)
MAPAS TEÓRICOS
2000.0
2000.0
2500.0
2500.0
3000.0
3000.0
3500.0
3500.0
4000.0
4000.0
4500.0
MAPA EXPERIMENTAL
5000.0
4500.0
5000.0
2000.0
2000.0
2500.0
2000.0
2500.0
3000.0
3000.0
3500.0
3500.0
4000.0
4000.0
4500.0
4500.0
2500.0
3000.0
3500.0
4000.0
4500.0
5000.0
5000.0
5000.0
Cortesía de Bruker Daltonics
Peptide Mass Fingerprinting (PMF)
Intens. [a.u.]
Mapa MALDI-TOF de un digerido en gel de BSA
1479.859 1163.692
5000
927.541
1439.863
4000
3000
1415.681
2000
1639.999
1163.692
1000
1283.739
1823.962
1955.951
830.441
1823.962
1163.692
1823.962
1823.962
0
800
1000
1200
1400
1600
1800
2000
2200
2400
m/z
Búsqueda en las Bases de Datos
En la actualidad hay disponibles en la web varios
motores de búsqueda:
MASCOT:
http://matrixscience.com
ProFound:
http://129.85.19.192/profound_bin/WebProFound.exe
MS-Fit:
http://prospector.ucsf.edu/ucsfhtml4.0/msfit.htm
PeptIdent:
http://ua.expasy.org/tools/peptident.html
Aldente:
http://ua.expasy.org/tools/aldente.html
Búsqueda en las Bases de Datos
Parámetros de búsqueda: BASES DE DATOS
Parámetros de búsqueda: BASES DE DATOS
SwissProt
- DB con bajo nivel de redundancia
- Gran nº de anotaciones
(función, variantes de secuencia, etc)
MSDB
- DB de proteínas no idénticas
- Diseñada específicamente para aplicaciones de MS
NCBInr
- DB de ác. nucléicos y proteínas no idénticas
- Las entradas han sido compiladas a partir de traducciones
de GenBank, PIR, SWISS-PROT, PRF y PDB
- Es la mayor y la que más frecuentemente se actualiza
No utilizadas para PMF:
dbEST:
Random:
DB de “Expressed Sequence Tags”
OWL:
DB de proteínas no idénticas. Sin actualizar desde 1999
DB de secuencias aleatorias. Utilizada para la verificación estadística
de los resultados
Parámetros de búsqueda: TAXONOMÍA
Parámetros de búsqueda: TAXONOMÍA
Permite limitar la búsqueda a entradas de un grupo de especies o
una especie en particular aumentando la velocidad de la búsqueda
Inconveniente: Falta de un sistema riguroso para especificar la taxonomía en las DB
¡! Los principales problemas son:
•
•
•
•
•
El texto de una entrada puede no especificar la taxonomía
Hay múltiples nombres para una única especie (homo sapiens, human, man)
Existen nombres con errores (homo sapeins)
Reclasificación continua de especies
En las DBnr, una única entrada puede representar secuencias idénticas
pertenecientes a múltiples especies
Parámetros de búsqueda: ENZIMA
Cleave
Trypsin
KR
P
CTERM
Arg-C
R
P
CTERM
Asp-N
BD
NTERM
Asp-N_ambic
DE
NTERM
Chymotrypsin
FYWL
CNBr
M
CTERM
Formic_acid
D
CTERM
Lys-C
K
Lys-C/P
K
CTERM
PepsinA
FL
CTERM
Tryp-CNBr
KRM
P
CTERM
TrypChymo
FYWLKR
P
CTERM
Trypsin/P
KR
V8-DE
BDEZ
P
CTERM
V8-E
EZ
P
CTERM
CNBr+Trypsin
“None”
“SemiTrypsin”
Don't
cleave
Name
P
P
CTERM
CTERM
CTERM
M
KR
N or C term
CTERM
P
CTERM
Para péptidos que no se han originado a partir de una digestión enzimática (ej. MHC)
No es una buena elección para PMF
Para péptidos producto de un doble corte inespecífico
Parámetros de búsqueda: MISSED CLEAVAGES
¡! Es conveniente no especificar más de 2 cortes parciales ya que el aumento
supone incrementar el número de péptidos a los que se enfrentarán los datos
experimentales con lo cual:
Aumenta el tiempo de búsqueda
Aumenta el número de asignaciones aleatorias
Disminuye la discriminación y la puntuación final
Parámetros de búsqueda: MODIFICACIONES
Parámetros de búsqueda: MODIFICACIONES
FIJAS
• Modificación aplicada universalmente
• No produce aumento en el número de péptidos
Ej. Carbamidomethyl (C) + 57 Da
C 103 Da
160 Da
VARIABLES
• Modificación que puede o no estar presente
• Se buscan todas las posibles combinaciones para encontrar la mejor asignación
Ej. Oxidation (M) + 16 Da
AIMCTHDMEYWMK
AIMCTHDMEYWMK
AIMCTHDMEYWMK
AIMCTHDMEYWMK
AIMCTHDMEYWMK
AIMCTHDMEYWMK
AIMCTHDMEYWMK
AIMCTHDMEYWMK
¡! • Cada modif. variable puede generar varios péptidos adicionales para ser testados:
Aumenta el tiempo de búsqueda
Aumenta el número de asignaciones aleatorias
Disminuye la discriminación y la puntuación final
Parámetros de búsqueda: MODIFICACIONES
Modificaciones causadas por la preparación de la muestra:
Plata
Coomassie / Sypro
Variables
Met oxidada
(+16 Da)
1-D
Propionamida
(+71 Da)
C-betamercapto
(+76 Da)
Fijas
-
Variables
Fijas
Met oxidada
(+16Da)
-
Propionamida
(+71 Da)
C-betamercapto
(+76 Da)
C-carbamidometilada
(+57 Da)
2-D
Met oxidada C-carbamidometilada
(+16 Da)
(+ 57 Da)
Met oxidada C-carbamidometilada
(+ 57 Da)
(+16 Da)
Parámetros de búsqueda: MODIFICACIONES
Modificaciones Post-traduccionales:
 Juegan un papel fundamental en la funcionalidad de las proteínas
 Las más comunes son:
Acetilación N-terminal: Induce un incremento en la ionización del
+42 Da
péptido produciendo picos muy intensos
Fosforilación (S, T, Y): Dificulta la ionización. Es más difícil de
+80 Da
detectar por PMF
 Si estamos seguros de que nuestra proteína está modificada podemos:
Seleccionar la modificación como variable (menos recomendable)
Buscar el péptido modificado en el mapa
Deberá aparecer con un
desplazamiento en m/z
equivalente a la modificación
Parámetros de búsqueda: MW DE LA PROTEÍNA
Parámetros de búsqueda: MW DE LA PROTEÍNA
¡!
La mayoría de las entradas en las DB corresponden
a la forma menos procesada de la proteína
Si se restringe la búsqueda a un rango
muy estrecho en torno al MW
Alta probabilidad de que se produzca
una asignación errónea
MASCOT
MW
límite superior
Permite encontrar asignaciones correspondientes a:
 Proteínas de menor MW
 Proteínas de mayor MW
Extendiendo la secuencia como máximo
una longitud igual a MW especificado
Parámetros de búsqueda: MW DE LA PROTEÍNA
Ejemplo :
INS_BOVIN (SwissProt)
PRECURSOR (incl. pépt. señal y conectores) MW 11394 Da
Procesamiento posterior a la traducción
INSULINA (MW 5734 Da)
5734 Da x 2 = 11468 Da
>
Límite superior de la búsqueda en
MASCOT superior al MW de la forma
menos procesada de la proteína
11394 Da
Alta probabilidad de que la
asignación sea correcta
Parámetros de búsqueda: TOLERANCIA DE LOS PÉPTIDOS
Es el margen de error permitido
para las masas experimentales de los péptidos
Parámetros de búsqueda: TOLERANCIA DE LOS PÉPTIDOS
Unidades:
%
mmu
Da
ppm
fracción expresada como porcentaje
unidades absolutas de mili-masa (ej. unidades de .001 Da)
unidades absolutas de Da
fracción expresada como partes por millón
búsqueda de un péptido de 1000.00 Da  100 ppm
se busca entre 999.90 Da y 1000.10 Da
La tolerancia permitida dependerá de
la exactitud de masa del equipo y de la calibración
exactitud
tolerancia
probabilidad buena asignación
Parámetros de búsqueda: VALORES DE MASAS
Modo Lineal
Modo Reflector
Average
Monoisotópico (mayor resolución)
Parámetros de búsqueda: DATA FILE OR QUERY
Data file: Formato ASCII (texto simple). Si se especifica, MASCOT ignora Query
Parámetros de búsqueda: LISTA DE MASAS
¡!
Para PMF se emplea una lista de masas donde
no se tiene en cuenta la intensidad de los picos
¡Inconveniente!
Principalmente si se trabaja a alta sensibilidad donde la
intensidad de los péptidos es semejante a la de los
contaminantes (matriz, queratinas, autolisis de tripsina)
Ej. Proteína 20 KDa. Digestión triptica
Lista de 100 masas
20-40 péptidos
60-80 péptidos son ruido o contaminantes
Probabilidad de asignaciones aleatorias
Parámetros de búsqueda: LISTA DE MASAS
Método óptimo:
 Buen rendimiento de digestión
 Correcta manipulación de la muestra
 Equipo que permita buena resolución y exactitud de masa
 Adecuada calibración
 Adquisición del espectro idónea
 Conocer las masas de los contaminantes
Parámetros de búsqueda: OVERVIEW AND REPORT HITS
Número máximo de
resultados a mostrar
Incluye en los resultados
una tabla descriptiva
AUTO: muestra sólo las proteínas
con puntuación significativa
Ejemplo real
Digerido en gel de BSA
Start Search ...
RESULTADOS
Zona de incertidumbre
Albumin (Bos taurus)
RESULTADOS
Index
RESULTADOS
Results List
RESULTADOS
Overview Table
gi|418694
gi|30794280
RESULTADOS
Protein View
RESULTADOS
Protein View
Interpretación de los Resultados
He identificado una proteína pero...
¿Es realmente correcta la identificación?
Análisis cuidadoso de los resultados
Del total de masas experimentales, ¿cuántas “encajan” con la proteína?
Las masas asignadas a la proteína, ¿son las más abundantes del espectro?
¿Cuánto se aleja nuestro resultado de la zona de incertidumbre?
Coincidencia del resultado empleando distintos motores de búsqueda
Coincidencia del resultado haciendo la digestión con distintas proteasas
Interpretación de los Resultados
¿El resultado apoya lo que se conoce previamente?
Coincidencia de la especie, tejido, compartimento subcelular, etc
Coincidencia del MW
Precauciones:
MW obs. > MW esp.
En DB, forma menos procesada
¿MW esp. es de una prot. degradada?
MW obs. < MW esp.
¿La prot. es oligomérica y observamos
una subunidad?
...
Ventajas y Limitaciones del PMF
VENTAJAS
Análisis rápido y con bajo coste
Alta sensibilidad
Aplicable para un elevado número de muestras
LIMITACIONES
La proteína debe estar en la DB o presentar un alto grado de homología
con proteínas presentes para poder ser identificada
No aplicable para proteínas menores de 15 kDa o proteínas con alto
número de modificaciones
Dificil identificación de mezclas de proteínas
Aplicaciones
 Identificación de proteínas
 Determinación de la localización subcelular
 Identificación de sustratos de proteínas quinasas
 Determinación de la identidad de una proteína
asociada con una determinada actividad observada
 Identificación de complejos de interacción
Bibliografía
Protein Identification
General
 Yates, JR, 3rd, Database searching using mass spectrometry data.
Electrophoresis, 19(6) 893-900 (1998).
 Bleasby, AJ and Wootton, JC, Construction of validated, non-redundant
composite protein sequence databases. Protein Eng., 3(3) 153-9 (1990).
Peptide Mass Fingerprint
 Pappin, DJC, Hojrup, P and Bleasby, AJ, Rapid identification of proteins by
peptide-mass fingerprinting. Curr. Biol., 3(6) 327-32 (1993).
 James, P, Quadroni, M, Carafoli, E and Gonnet, G, Protein identification in DNA
databases by peptide mass fingerprinting. Protein Sci, 3(8) 1347-50 (1994).
Sequence Query
 Mann, M and Wilm, M, Error-tolerant identification of peptides in sequence
databases by peptide sequence tags. Anal Chem, 66(24) 4390-9 (1994).
 Pappin, DJC, Rahman, D, Hansen, HF, Bartlet-Jones, M, Jeffery, W and Bleasby,
AJ, Chemistry, mass spectrometry and peptide-mass databases: Evolution of
methods for the rapid identification and mapping of cellular proteins. Mass
Spectrom. Biol. Sci., 135-50 (1996).