Uso del programa HMMER •Búsqueda de familias (dominios) de proteínas DOMINIO PROTEICO: porción de una proteína con estructura terciaria definida (40-350 aminoácidos).

Download Report

Transcript Uso del programa HMMER •Búsqueda de familias (dominios) de proteínas DOMINIO PROTEICO: porción de una proteína con estructura terciaria definida (40-350 aminoácidos).

Uso del programa HMMER
•Búsqueda de familias (dominios) de proteínas
DOMINIO PROTEICO: porción de una proteína con
estructura terciaria definida (40-350 aminoácidos). Unidad
modular. En general asociados a una función particular.
Proteínas pequeñas tienen un único dominio, proteínas
grandes pueden llegar a tener más de 10 dominios.
FAMILIA DE PROTEINAS:
Conjunto de proteínas con dominios o funciones en común
La secuencia aminoacídica puede estar conservada en mayor
o menor medida.
Casos extremos: 25 % de identidad aminoacídica, estructura
terciaria idéntica
Dominios
Aplicación de HHMER
Dada una familia de proteínas conocida…..
¿Hay nuevos miembros de esta familia?
Construcción
• A partir de un alineamiento múltiple, se
genera un consenso, con matchs, deleciones o
inserciones
• Los parámetros del modelo se determinan en
base a la frecuencia de aparición de cada
aminoácido en una posición particular
• Algoritmos de programación dinámica para la
construcción del modelo
• Cálculo de frecuencias de emisión y transición:
algoritmos de pesado de secuencias, Plan 7
Características HMMER
• Tres estados principales: Match, Deleción o Inserción
• Se emiten pares de residuos
Modelo Básico
δ
ε
δ
1-2δ-τ
B
1-ε- τ
M
pm
τ
D
pd
τ
E
1-ε- τ
1-2δ-τ
δ
I
pi
δ
ε
τ
τ
PLAN 7
Estados especiales (no dependen de los datos de entrada):
S, N, J, C, T
Permiten encontrar matchs en cualquier lugar interno de la secuencia
Dominios locales
Globinas
Amplia familia de proteínas
(50 secuencias de diferentes especies)
1 secuencia de “globina” de Artemia (micro camarón)
Datos de entrada: Alineamianto múltiple
(Clustal o HMMER)
Construcción del modelo
Algortimo de programación dinámica
Parámetro x determina la cantidad de residuos
en el consenso
hmmbuild - build a hidden Markov model from an alignment
HMMER 2.3.2 (Oct 2003)
Copyright (C) 1992-2003 HHMI/Washington University School of Medicine
Freely distributed under the GNU General Public License (GPL)
-----------------------------------Alignment file:
globins50.msf
File format:
MSF
Search algorithm configuration: Multiple domain (hmmls)
Model construction strategy:
MAP (gapmax hint: 0.50)
Null model used:
(default)
Prior used:
(default)
Sequence weighting method:
G/S/C tree weights
New HMM file:
globin.hmm
-------------------------------Alignment:
#1
Number of sequences: 50
Number of columns: 308
Determining effective sequence number ... done. [2]
Weighting sequences heuristically
... done.
Constructing model architecture
... done.
Converting counts to probabilities
... done.
Setting model name, etc.
... done. [globins50]
Constructed a profile HMM (length 143)
Average score:
189.04 bits
Minimum score:
-17.62 bits
Maximum score:
234.09 bits
Std. deviation:
53.18 bits
Finalizing model configuration
... done.
Saving model to file
... done.
Calibración
• Generación de secuencias aleatorias en función de
la longitud y composición aminoacídica del
alineamiento múltiple
• Construcción de histograma distribución de los
scores de las secuencias aleatorias
• Seteo de mu y lambda (E-value)
Calibración
hmmcalibrate -- calibrate HMM search statistics
HMMER 2.3.2 (Oct 2003)
Copyright (C) 1992-2003 HHMI/Washington University School of Medicine
Freely distributed under the GNU General Public License (GPL)
-----------------------------------HMM file:
globin.hmm
Length distribution mean: 325
Length distribution s.d.: 200
Number of samples:
5000
random seed:
1096635211
histogram(s) saved to: histograma
-------------------------------HMM : globins50
mu : -38.917610
lambda : 0.240948
max : -6.474000
Búsqueda
Criterios de evaluación de los resultados
Score = log2 P(seq/HMM)
P (seq/null)
E-value = número esperado de falsos positivos
(secuencias con score alto por azar)
Búsqueda
hmmsearch - search a sequence database with a profile HMM
[HMM has been calibrated; E-values are empirical estimates]
Scores for complete sequences (score includes all domains):
Sequence Description
Score
E-value N
-------- ------------------S13421
S13421 GLOBIN - BRINE SHRIMP
474.3
1.7e-143
9
Parsed for domains:
Sequence Domain seq-f seq-t
hmm-f hmm-t
-------- ------- ----- --------- ----S13421
7/9
932 1075 ..
1
143 []
S13421
2/9
153
293 ..
1
143 []
S13421
3/9
307
450 ..
1
143 []
S13421
8/9
1089 1234 ..
1
143 []
S13421
9/9
1248 1390 ..
1
143 []
S13421
1/9
1
143 [.
1
143 []
S13421
4/9
464
607 ..
1
143 []
S13421
6/9
775
918 ..
1
143 []
S13421
5/9
623
762 ..
1
143 []
score
----76.9
63.7
59.8
57.6
52.3
51.2
46.7
42.2
23.9
E-value
------7.3e-24
6.8e-20
9.8e-19
4.5e-18
1.8e-16
4e-16
8.6e-15
2e-13
6.6e-08
Alignments of top-scoring domains:
S13421: domain 7 of 9, from 932 to 1075: score 76.9, E = 7.3e-24
*->eekalvksvwgkveknveevGaeaLerllvvyPetkryFpkFkdLss
+e a vk+ w+ v+ ++
S13421
932
vG
+++ l++ +P+ +++FpkF d+
REVAVVKQTWNLVKPDLMGVGMRIFKSLFEAFPAYQAVFPKFSDVPL 978
adavkgsakvkahgkkVltalgdavkkldd...lkgalakLselHaqklr
d++++++ v +h
S13421
V t+l++ ++ ld++ +l+
++L+e H+
lr
979 -DKLEDTPAVGKHSISVTTKLDELIQTLDEpanLALLARQLGEDHIV-LR 1026
vdpenfkllsevllvvlaeklgkeftpevqaalekllaavataLaakYk<
v+
S13421
fk +++vl+
l++ lg+ f+
++ +++k+++++++ +++
+
1027 VNKPMFKSFGKVLVRLLENDLGQRFSSFASRSWHKAYDVIVEYIEEGLQ
-*
1075
Vale la pena?
para este ejemplo particular:
•50 proteínas de información inicial
•estructura y función perfectamente conocidas
Resultados similares utilizando PSI-BLAST y CDD
Otro caso
•Familia de proteínas específicas de un grupo de organismos alejados
evolutivamente de las especies más estudiadas (hombre, ratón, etc.)
Echinococcus granulosus
•Poca informacion disponible de proteínas pertencientes a la misma familia
Los bancos de datos que utilizan estos programas no son
completos (ej. Pfam 5193 flias)
Usamos HMMER.......
Datos de entrada
7 proteínas de las misma familia (sospecha por estructura y función)
Datos de búsqueda
una secuencia nueva EgB2G1/10
10
20
30
40
50
60
70
80
90
....|....|....|....|....|....|....|....|....|....|....|....|....|....|....|....|....|....|.
EgB2G1/10
Ts
Tc
Me
Hd
ASPI1
ASPI2
AsCE1
MRTYILLSLALVAFVAVVQAKAEPERCKCLITRKLSEVRDFFRSDPLGQRLVALGRDLTAICQKLHLKIHEVLKKYVKDLLEEEEEEDDSK
-----------ITV..APDDDKGQ.DLNMTVMKQ.G...R..TE....RNVTKQLKEMI..AKVIRHR.RKC.GE.L.G.EN.------------------ITV..APTDDKG..DL.KKMMKQ.G...R...E.....KIIDHFQETVS..KAIRER.RKR.GE.L.G.EN.-----------------------ME.ETNPIRAI.KR..SY.KSREE.YDK.....KIAKFYGEWKELVAEVRKRVRARIAA...K.Q..-----------------------ME.ETNPIR.I.TKAKEYFAARER.YDE....KQIA.HLSKWRE.IRDVRARLRGY.R..LN..QK.YPKA---------MMFTPLIVLTLLVLATAEHQ.GPNEQWSDCPGCELQCGESD-KPCP.MCG.PKCY.SPDQ-YRRIPDGRCIRKIQCPQH-----------MMFTPLIVLTLLVLATAEHQ.GPNEQWSDCPKCELQCGESD-KPCATICGEPKCY.SPDK-YRRIPDGRCIRKIQCPQH---------------------------GQ...GPNEVWTECTGCEMKCG..ENTPCPLMC.RPSCE.SPGRGMRRTNDG.CIPASQCP.-------
Construcción del modelo
hmmbuild - build a hidden Markov model from an alignment
HMMER 2.3.2 (Oct 2003)
Copyright (C) 1992-2003 HHMI/Washington University School of
Medicine
Freely distributed under the GNU General Public License (GPL)
-----------------------------------Alignment file:
AgBfam.pir
File format:
a2m
Search algorithm configuration: Multiple local (hmmfs)
S/W aggregate entry probability: 0.50
S/W aggregate exit probability: 0.50
Model construction strategy:
MAP (gapmax hint: 0.50)
Null model used:
(default)
Prior used:
(default)
Sequence weighting method:
G/S/C tree weights
New HMM file:
Agb.hmm
-------------------------------Alignment:
#1
Number of sequences: 7
Number of columns: 86
Determining effective sequence number ... done. [5]
Weighting sequences heuristically
... done.
Constructing model architecture
... done.
Converting counts to probabilities
... done.
Setting model name, etc.
... done. [AgBfam]
Constructed a profile HMM (length 86)
Average score:
137.09 bits
Minimum score:
115.76 bits
Maximum score:
156.73 bits
Std. deviation:
15.18 bits
Finalizing model configuration
... done.
Saving model to file
... done.
Parámetro modificado:
-f
busca dominios
localmente
(prioriza dominios
pequeños)
Calibración
hmmcalibrate -- calibrate HMM search statistics
HMMER 2.3.2 (Oct 2003)
Copyright (C) 1992-2003 HHMI/Washington University School of Medicine
Freely distributed under the GNU General Public License (GPL)
-----------------------------------HMM file:
Agb.hmm
Length distribution mean: 325
Length distribution s.d.: 200
Number of samples:
5000
random seed:
1096637147
histogram(s) saved to: histograma2
-------------------------------HMM : AgBfam
mu : -10.075376
lambda : 0.640866
max : 4.144000
Búsqueda
10
20
30
40
50
60
70
80
90
....|....|....|....|....|....|....|....|....|....|....|....|....|....|....|....|....|....|.
EgB2G1/10
MRTYILLSLALVAFVAVVQAKAEPERCKCLITRKLSEVRDFFRSDPLGQRLVALGRDLTAICQKLHLKIHEVLKKYVKDLLEEEEEEDDSK
hmmsearch - search a sequence database with a profile HMM
[HMM has been calibrated; E-values are empirical estimates]
Scores for complete sequences (score includes all domains):
Sequence
Description
Score
---------------------P1;EgB2G1/10
22.9
Parsed for domains:
Sequence
Domain seq-f seq-t
hmm-f hmm-t
-------------- ----- --------- ----P1;EgB2G1/10
1/1
24
87 ..
19
86 .]
score
----22.9
E-value N
------- --6.8e-10
1
E-value
------6.8e-10
Alignments of top-scoring domains:
P1;EgB2G1/10: domain 1 of 1, from 24 to 87: score 22.9, E = 6.8e-10
*->qerikkkemkylcereefydeDPlGkkiakhlgepkcicspvRkkri
+er+k ++ l e++ f++ DPlG+
+ ++ +ic
i
P1;EgB2G1/
24
PERCKCLITRKLSEVRDFFRSDPLGQRLVALGRDLTAICQKLHL-KI 69
P1;EgB2G1/
RkrlGkYlkklQcEehkakkk<-*
l kY+k+l +Ee
+++
70 HEVLKKYVKDLLEEE---EEE
87
Programas que utilizan HMM
Programa Aplicaciones
HMMER
Búsqueda de familias de proteínas
“hammer” a partir de un alineamiento
múltiple
Emisión de secuencias patrón
SAM
Idem HMMER
MetaBúsqueda de motivos en
meme
alineamientos sin gaps (menos
parámetros para ajustar)
HMMPro Programa comercial. Idem
HMMER más interface gráfica
Pfam
Banco de alineamientos múltiples y
HMMs de las familias y dominios
proteicos más comunes (5193 flias)
Sitio
http://hmmer.wustl.edu
http://bioweb.pasteur.fr/seqanal/motif/hmmer-uk.html
http://www.cse.ucsc.edu/research/compbio/sam.html
http://metameme.sdsc.edu/
http://www.nwtid.com/html/hmmpro.html
Tipos de Pfam:
- Family
- Domain
- Repetido (en tandem forma dominio)
- Motivo (unidad de secuencia corta por fuera de los
dominios)
http://pfam.wustl.edu/
http://www.sanger.ac.ak/Software/Pfam/index.shtml
Referencias
Profile hidden Markov models. Edyy S.R. 1998,
Bioinformatics Review. Volume : 14,775-763.
What is a hidden Markov model? Eddy S. R. 2004.
Publication On line
Biological Sequence Analysis: Probabilistic Models of
Protein and Nucleic Acids. Durbin R., Eddy S. R., Krogh
A. and Mitchison G. J. Cambridge University Press,
Cambbridge UK.