Uso del programa HMMER •Búsqueda de familias (dominios) de proteínas DOMINIO PROTEICO: porción de una proteína con estructura terciaria definida (40-350 aminoácidos).
Download ReportTranscript Uso del programa HMMER •Búsqueda de familias (dominios) de proteínas DOMINIO PROTEICO: porción de una proteína con estructura terciaria definida (40-350 aminoácidos).
Uso del programa HMMER •Búsqueda de familias (dominios) de proteínas DOMINIO PROTEICO: porción de una proteína con estructura terciaria definida (40-350 aminoácidos). Unidad modular. En general asociados a una función particular. Proteínas pequeñas tienen un único dominio, proteínas grandes pueden llegar a tener más de 10 dominios. FAMILIA DE PROTEINAS: Conjunto de proteínas con dominios o funciones en común La secuencia aminoacídica puede estar conservada en mayor o menor medida. Casos extremos: 25 % de identidad aminoacídica, estructura terciaria idéntica Dominios Aplicación de HHMER Dada una familia de proteínas conocida….. ¿Hay nuevos miembros de esta familia? Construcción • A partir de un alineamiento múltiple, se genera un consenso, con matchs, deleciones o inserciones • Los parámetros del modelo se determinan en base a la frecuencia de aparición de cada aminoácido en una posición particular • Algoritmos de programación dinámica para la construcción del modelo • Cálculo de frecuencias de emisión y transición: algoritmos de pesado de secuencias, Plan 7 Características HMMER • Tres estados principales: Match, Deleción o Inserción • Se emiten pares de residuos Modelo Básico δ ε δ 1-2δ-τ B 1-ε- τ M pm τ D pd τ E 1-ε- τ 1-2δ-τ δ I pi δ ε τ τ PLAN 7 Estados especiales (no dependen de los datos de entrada): S, N, J, C, T Permiten encontrar matchs en cualquier lugar interno de la secuencia Dominios locales Globinas Amplia familia de proteínas (50 secuencias de diferentes especies) 1 secuencia de “globina” de Artemia (micro camarón) Datos de entrada: Alineamianto múltiple (Clustal o HMMER) Construcción del modelo Algortimo de programación dinámica Parámetro x determina la cantidad de residuos en el consenso hmmbuild - build a hidden Markov model from an alignment HMMER 2.3.2 (Oct 2003) Copyright (C) 1992-2003 HHMI/Washington University School of Medicine Freely distributed under the GNU General Public License (GPL) -----------------------------------Alignment file: globins50.msf File format: MSF Search algorithm configuration: Multiple domain (hmmls) Model construction strategy: MAP (gapmax hint: 0.50) Null model used: (default) Prior used: (default) Sequence weighting method: G/S/C tree weights New HMM file: globin.hmm -------------------------------Alignment: #1 Number of sequences: 50 Number of columns: 308 Determining effective sequence number ... done. [2] Weighting sequences heuristically ... done. Constructing model architecture ... done. Converting counts to probabilities ... done. Setting model name, etc. ... done. [globins50] Constructed a profile HMM (length 143) Average score: 189.04 bits Minimum score: -17.62 bits Maximum score: 234.09 bits Std. deviation: 53.18 bits Finalizing model configuration ... done. Saving model to file ... done. Calibración • Generación de secuencias aleatorias en función de la longitud y composición aminoacídica del alineamiento múltiple • Construcción de histograma distribución de los scores de las secuencias aleatorias • Seteo de mu y lambda (E-value) Calibración hmmcalibrate -- calibrate HMM search statistics HMMER 2.3.2 (Oct 2003) Copyright (C) 1992-2003 HHMI/Washington University School of Medicine Freely distributed under the GNU General Public License (GPL) -----------------------------------HMM file: globin.hmm Length distribution mean: 325 Length distribution s.d.: 200 Number of samples: 5000 random seed: 1096635211 histogram(s) saved to: histograma -------------------------------HMM : globins50 mu : -38.917610 lambda : 0.240948 max : -6.474000 Búsqueda Criterios de evaluación de los resultados Score = log2 P(seq/HMM) P (seq/null) E-value = número esperado de falsos positivos (secuencias con score alto por azar) Búsqueda hmmsearch - search a sequence database with a profile HMM [HMM has been calibrated; E-values are empirical estimates] Scores for complete sequences (score includes all domains): Sequence Description Score E-value N -------- ------------------S13421 S13421 GLOBIN - BRINE SHRIMP 474.3 1.7e-143 9 Parsed for domains: Sequence Domain seq-f seq-t hmm-f hmm-t -------- ------- ----- --------- ----S13421 7/9 932 1075 .. 1 143 [] S13421 2/9 153 293 .. 1 143 [] S13421 3/9 307 450 .. 1 143 [] S13421 8/9 1089 1234 .. 1 143 [] S13421 9/9 1248 1390 .. 1 143 [] S13421 1/9 1 143 [. 1 143 [] S13421 4/9 464 607 .. 1 143 [] S13421 6/9 775 918 .. 1 143 [] S13421 5/9 623 762 .. 1 143 [] score ----76.9 63.7 59.8 57.6 52.3 51.2 46.7 42.2 23.9 E-value ------7.3e-24 6.8e-20 9.8e-19 4.5e-18 1.8e-16 4e-16 8.6e-15 2e-13 6.6e-08 Alignments of top-scoring domains: S13421: domain 7 of 9, from 932 to 1075: score 76.9, E = 7.3e-24 *->eekalvksvwgkveknveevGaeaLerllvvyPetkryFpkFkdLss +e a vk+ w+ v+ ++ S13421 932 vG +++ l++ +P+ +++FpkF d+ REVAVVKQTWNLVKPDLMGVGMRIFKSLFEAFPAYQAVFPKFSDVPL 978 adavkgsakvkahgkkVltalgdavkkldd...lkgalakLselHaqklr d++++++ v +h S13421 V t+l++ ++ ld++ +l+ ++L+e H+ lr 979 -DKLEDTPAVGKHSISVTTKLDELIQTLDEpanLALLARQLGEDHIV-LR 1026 vdpenfkllsevllvvlaeklgkeftpevqaalekllaavataLaakYk< v+ S13421 fk +++vl+ l++ lg+ f+ ++ +++k+++++++ +++ + 1027 VNKPMFKSFGKVLVRLLENDLGQRFSSFASRSWHKAYDVIVEYIEEGLQ -* 1075 Vale la pena? para este ejemplo particular: •50 proteínas de información inicial •estructura y función perfectamente conocidas Resultados similares utilizando PSI-BLAST y CDD Otro caso •Familia de proteínas específicas de un grupo de organismos alejados evolutivamente de las especies más estudiadas (hombre, ratón, etc.) Echinococcus granulosus •Poca informacion disponible de proteínas pertencientes a la misma familia Los bancos de datos que utilizan estos programas no son completos (ej. Pfam 5193 flias) Usamos HMMER....... Datos de entrada 7 proteínas de las misma familia (sospecha por estructura y función) Datos de búsqueda una secuencia nueva EgB2G1/10 10 20 30 40 50 60 70 80 90 ....|....|....|....|....|....|....|....|....|....|....|....|....|....|....|....|....|....|. EgB2G1/10 Ts Tc Me Hd ASPI1 ASPI2 AsCE1 MRTYILLSLALVAFVAVVQAKAEPERCKCLITRKLSEVRDFFRSDPLGQRLVALGRDLTAICQKLHLKIHEVLKKYVKDLLEEEEEEDDSK -----------ITV..APDDDKGQ.DLNMTVMKQ.G...R..TE....RNVTKQLKEMI..AKVIRHR.RKC.GE.L.G.EN.------------------ITV..APTDDKG..DL.KKMMKQ.G...R...E.....KIIDHFQETVS..KAIRER.RKR.GE.L.G.EN.-----------------------ME.ETNPIRAI.KR..SY.KSREE.YDK.....KIAKFYGEWKELVAEVRKRVRARIAA...K.Q..-----------------------ME.ETNPIR.I.TKAKEYFAARER.YDE....KQIA.HLSKWRE.IRDVRARLRGY.R..LN..QK.YPKA---------MMFTPLIVLTLLVLATAEHQ.GPNEQWSDCPGCELQCGESD-KPCP.MCG.PKCY.SPDQ-YRRIPDGRCIRKIQCPQH-----------MMFTPLIVLTLLVLATAEHQ.GPNEQWSDCPKCELQCGESD-KPCATICGEPKCY.SPDK-YRRIPDGRCIRKIQCPQH---------------------------GQ...GPNEVWTECTGCEMKCG..ENTPCPLMC.RPSCE.SPGRGMRRTNDG.CIPASQCP.------- Construcción del modelo hmmbuild - build a hidden Markov model from an alignment HMMER 2.3.2 (Oct 2003) Copyright (C) 1992-2003 HHMI/Washington University School of Medicine Freely distributed under the GNU General Public License (GPL) -----------------------------------Alignment file: AgBfam.pir File format: a2m Search algorithm configuration: Multiple local (hmmfs) S/W aggregate entry probability: 0.50 S/W aggregate exit probability: 0.50 Model construction strategy: MAP (gapmax hint: 0.50) Null model used: (default) Prior used: (default) Sequence weighting method: G/S/C tree weights New HMM file: Agb.hmm -------------------------------Alignment: #1 Number of sequences: 7 Number of columns: 86 Determining effective sequence number ... done. [5] Weighting sequences heuristically ... done. Constructing model architecture ... done. Converting counts to probabilities ... done. Setting model name, etc. ... done. [AgBfam] Constructed a profile HMM (length 86) Average score: 137.09 bits Minimum score: 115.76 bits Maximum score: 156.73 bits Std. deviation: 15.18 bits Finalizing model configuration ... done. Saving model to file ... done. Parámetro modificado: -f busca dominios localmente (prioriza dominios pequeños) Calibración hmmcalibrate -- calibrate HMM search statistics HMMER 2.3.2 (Oct 2003) Copyright (C) 1992-2003 HHMI/Washington University School of Medicine Freely distributed under the GNU General Public License (GPL) -----------------------------------HMM file: Agb.hmm Length distribution mean: 325 Length distribution s.d.: 200 Number of samples: 5000 random seed: 1096637147 histogram(s) saved to: histograma2 -------------------------------HMM : AgBfam mu : -10.075376 lambda : 0.640866 max : 4.144000 Búsqueda 10 20 30 40 50 60 70 80 90 ....|....|....|....|....|....|....|....|....|....|....|....|....|....|....|....|....|....|. EgB2G1/10 MRTYILLSLALVAFVAVVQAKAEPERCKCLITRKLSEVRDFFRSDPLGQRLVALGRDLTAICQKLHLKIHEVLKKYVKDLLEEEEEEDDSK hmmsearch - search a sequence database with a profile HMM [HMM has been calibrated; E-values are empirical estimates] Scores for complete sequences (score includes all domains): Sequence Description Score ---------------------P1;EgB2G1/10 22.9 Parsed for domains: Sequence Domain seq-f seq-t hmm-f hmm-t -------------- ----- --------- ----P1;EgB2G1/10 1/1 24 87 .. 19 86 .] score ----22.9 E-value N ------- --6.8e-10 1 E-value ------6.8e-10 Alignments of top-scoring domains: P1;EgB2G1/10: domain 1 of 1, from 24 to 87: score 22.9, E = 6.8e-10 *->qerikkkemkylcereefydeDPlGkkiakhlgepkcicspvRkkri +er+k ++ l e++ f++ DPlG+ + ++ +ic i P1;EgB2G1/ 24 PERCKCLITRKLSEVRDFFRSDPLGQRLVALGRDLTAICQKLHL-KI 69 P1;EgB2G1/ RkrlGkYlkklQcEehkakkk<-* l kY+k+l +Ee +++ 70 HEVLKKYVKDLLEEE---EEE 87 Programas que utilizan HMM Programa Aplicaciones HMMER Búsqueda de familias de proteínas “hammer” a partir de un alineamiento múltiple Emisión de secuencias patrón SAM Idem HMMER MetaBúsqueda de motivos en meme alineamientos sin gaps (menos parámetros para ajustar) HMMPro Programa comercial. Idem HMMER más interface gráfica Pfam Banco de alineamientos múltiples y HMMs de las familias y dominios proteicos más comunes (5193 flias) Sitio http://hmmer.wustl.edu http://bioweb.pasteur.fr/seqanal/motif/hmmer-uk.html http://www.cse.ucsc.edu/research/compbio/sam.html http://metameme.sdsc.edu/ http://www.nwtid.com/html/hmmpro.html Tipos de Pfam: - Family - Domain - Repetido (en tandem forma dominio) - Motivo (unidad de secuencia corta por fuera de los dominios) http://pfam.wustl.edu/ http://www.sanger.ac.ak/Software/Pfam/index.shtml Referencias Profile hidden Markov models. Edyy S.R. 1998, Bioinformatics Review. Volume : 14,775-763. What is a hidden Markov model? Eddy S. R. 2004. Publication On line Biological Sequence Analysis: Probabilistic Models of Protein and Nucleic Acids. Durbin R., Eddy S. R., Krogh A. and Mitchison G. J. Cambridge University Press, Cambbridge UK.