Transcript Genoma
Información en los seres vivos • El fenotipo se correlaciona con el genotipo • Dogma central: ADN - ARN - proteínas - rasgos • Estable y transmisible – Puede ser copiada y diseminada • Capacidad de modificación – Mutación – Recombinación – Sexo (intercambio de material genético) Del genotipo al fenotipo Material genético (ADN) Genes Proteínas Estructura molecular Función Rasgos Bacterias Animales Plantas Hongos Almacenamiento de la información genética: estructura del ADN Estructura del genoma de los organismos procariotas • Contienen un único cromosoma de estructura circular • Básicamente ADN desnudo • Mayoría de la secuencia de ADN compuesta por genes E. coli- 4.6 Mb ~87% --- 4288 genes Estructura del genoma de los organismos eucariotas • Material genético almacenado en el núcleo • Organizado de forma compleja en varios cromosomas de estructura linear • ADN asociados a proteínas (histonas y no histonas): fibras de cromatina En los eucariotas la información genética se reparte en un nº variable de cromosomas Complejidad del genoma eucariota • Parte del genoma de los organismos eucariotas no codifica para proteínas: – ADN altamente repetitivo, centrómeros, ADN satélite, telómeros (5% del genoma humano) – ADN moderadamente repetitivo, SINEs, LINEs, ARNr y VNTRs (30% del genoma humano) • Los organismos eucariotas contienen secuencia no codificante (no traducida a proteína) incluso dentro de la secuencia génica Replicación del ADN El ADN se replica en dirección 5’ – 3’ OH Extremo ·3’ Extremo 5’ P T A P O O P T A P O OH P P C P P G O OH C P Extremo 5’ Replicación del ADN • Video replicación del ADN • http://www.youtube.com/watch?v=zmu9O PuXj-k&feature=related El ADN contiene la información para producir las proteínas de un organismo Naturaleza química de las proteínas • La unidad básica de la proteína es el aminoácido, existen 20 aminoácidos distintos • Los aminoácidos están unidos covalentemente mediante enlaces formando cadenas (polipéptidos) Proteínas • Las proteínas son la clase más versátil de macromoléculas en la célula • Existen 20 amino ácidos diferentes que forman parte de las proteínas • Gran variedad de características químicas • Pueden sufrir muchas modificaciones bioquímicas que alteran o regulan su función • Llevan a cabo la mayoría de las funciones celulares Niveles de organización de las proteínas Flujo de la información genética para generar proteínas • ADN • Código de 4 letras • Largas moléculas con miles de genes • Proteína • Código de 20 letras • Moléculas de tamaño discreto (RT) TRANSCRIPCIÓN TRADUCCIÓN Estructura los genes eucariotas Transcrito El “splicing” tiene lugar en el “spliceosome” http://www.youtube.com/watch?v=FVuAwBG w_pQ Transcripción • Proceso complejo que implica varios pasos • La ARN polimerasa sintetiza un molécula de ARN monocatenario usando como molde la secuencia de una de las cadenas de ADN • El inicio de la transcripción está regulado por factores de transcripción que reconocen secuencias normalmente situadas justo antes del punto de inicio de la transcripción (extremo 5’) • Existen secuencias que indican el final de la transcripción, al ARN recién sintetizado se le añade una secuencia de adeninas, la denominada cola poli A (RT) TRANSCRIPCIÓN TRADUCCIÓN • Video síntesis de proteínas • http://www.youtube.com/watch?v=FNqmh 4PoMPQ Flujo de información, de la secuencia geníca a la proteína Regulación del flujo de la información genética ADN Pre-ARNm Transcripción Cromatina ADN-B ADN-Z Nivel principal de regulación Transcripciónal ARNm Splicing Traducción Proteína Proteína activa Modificaciones post-traduccionales Estabilidad Splicing alternativo Post-transcripción Post-Traduccional Splicing alternativo • Hace referencia a variaciones en la forma de combinar exones que generan diversas formas de una proteína • El splicing alternativo de pre-ARNm es un importante mecanismo de regulación de la expresión de genes en eucariotas superiores. Regulación cualitativa • Explica por ejemplo la existencia de aproximadamente 1.000.000 de anticuerpos diferentes en humanos a pesar de que el genoma humano contiene únicamente unos 30.000 genes “Splicing alternativo” Fig 24.4 Alternate splicing of transcripts from the rat troponin T gene. Result in slightly different action of muscle Genes expressed that lead to female development Genes expressed that lead to male development Fig 24.5 Alternate splicing of transcripts from the Sex-lethal gene in male and female Drosophila. Bioinformática • Las nuevas tecnologías de secuenciación permiten secuenciar el genoma completo de un organismo • Se está generando una enorme cantidad de datos • ¿Cómo analizar todos estos datos? – Bioinformática • Fusión de las ciencias de la computación con la ciencia genómica • Desarrollo de nuevas herramientas para analizar datos • • Contig 190 25703 - 32806 atgctctttaccatgcaattcaccactcgatccaccgtggcctcgcccgagcagcagcaccaacaccaacagcgcagtatctcgtactcggatatcgaacttggtcttgagcgcatcagctctcgcgacagcaatggcag ctccaactttacgcacagagcctatcctccaccgctatctcagcaatatgacgacacatccaccaactcctttcattcatcgcagccagacatcacagcctcttcttcaactttgtcgtctcgcctcgtgagcgccaactactcc cgtcctcggttcgagcatgcgcacactcaaccacccacacccgaccaagaccgctccagctccggctccggctccggctccggctctcgctcctactttcccgccaactcgcattccgactctttgcccggtcccagcact catagcatcagcccttcctttgacgaggacgaactccgtcagatcatgtcgcacattccagctaaccaagccacgtccagctcggatggcgatgtaggcaaggccgtccagtctgccaaccatcaggacatcagtccgt tcctcttccagagcgagaacgcagctcccttttcctcctcccactccaaccgtaccagtgtcaatccatccgcagcctcgaccgccagcccgtcgacttcggcggcaaccaggacacgtccgcgcgggggcaccaacg cctcgcagtacaacaccctagacactagcttcggtagcatcgatcggcctggcctttcttcttcccgctctcagtattcattgcgcccacagaccccaccctcggcgtccacttccactagcactctcaacggctccaaggac acgcacgcttctgccgtcaagaagacgcgcaatccgttcggctttctcaaaaagaagtcctcggcccactcaaatgcttcctcgaatcaccccacgcgccacgacatcggctcggtctcttcgctctcgtcgcgctacggt cccaacgcggcggccaacgtcaatccgatgcgcccacctgcctggctcgataatcactgcacacttgccaactccaactcgccttcttcggcttcgctgcgctctcactaccaccagcctcctgcctcttcgaatccccctc cttggcagaaccccctcgtgtctcgtgcagactcgactccttccgccatgagtctcgaagatgaggtcgaggctgagcatcatctcaagaaggaccctcgcaagcgcatcaaaggcgttcgccatcaccttgcaaagac caccaagcccggcgaggacgccgactcggcacgcgaccctgcctttgcagcccagagccagtccatcgaacaagaggtcgaactctcgttggacatgaactttgaccagctcgatgactttgtcgacaccaacgcag cgcgccagcggctccagggctcgatcactgagtctgccagtccttccgagcatcgctcaccaaacggaagcgaagccggcgtgtatcgctcgccatccccttcccagactcccattgccgaacgccagacttcggtca cttctaccgtcgaatctccctcgcacgcctcggaagcctcgctcgcaccctcgggctctctgcgaaccccgagtcgcactactgcgtctacctctacctcgtccgcttccaccgtactcagcgaccgtcttccttcgcaggtca acatgcttcctcgcaatagcgtccccaggctcagcctagccgagatgcaaaactaccagtcgctccgtaaactctcgaacaacctcatcgacatgtcccagacgcaaaacccttccgctatgggcgcatcctaccgccg cggatccatcgcagccgcccaagcacctgtcgacgcgcctcagctaggtgtcgctcctcgtactgactctgagctctccgatcgcaaggacagcgtagtctctacccacagcatgcgctccaaccatagcggcatctcg cccaagacctcatacgccaacctgcccagtgtcattcaggagcgtcagaagccggctactgcacttccctccgccgcgaattggacatcatccatcaccagagacaaaacggccaatggacatgctgaccacgccta ccaatttccgcccgcaactgagtatcagtccaacttgctgctcagcgtgcgcaagtcgagtgccagctcggggcaggagcctagctccagctggatggctcccgacagttgggccgtacaaccggacaagatgcgcg actatcttcgcgacgataatgtcggcgaggaggaagacgacgacgacgaccagcaccaagccagagccgctttggccaccgatggcaagaggcgcggttccagctccggtatcagctcgacgcatgcatcgagc atgttccgcacctcatccaccgaccctttcaagaagactgcctcgcttgctggctcacgtcgcggcacggacgactcggtcgatccgctcaccgctttgcctccattgccaggctccaagtcggtggacgaggcagcagc caacaaggtcgatgtactccagcagaccaataatctcgctcaatcggctctggtgcaacagcagtctcaatcccagaaccaccaccagcccagccccaacgtccgtcccacctcgagaggcggtgctggtgcccaca tgtttgcctccgccggcgcttccgctgcagcagctgctgcgggcaagcttggtttacatcgtccatctaaacatcgtatgaacgcgcgacccaataccgcaggctccgttggtgcgacccgaccttccaccaccacgctcg gctcgaccctctcggcagaggacgacacaagcatcaacggctccatccgacgcgacggccatccgctcaagcgctccgcaactgccaacacgaacaacgccacgggaactttgcctcgcaaccacttcatccgcg tctacaagacggacggcacctttgcaacgctctcgtgctcactcgtctcgacggcaaacgaagtacagacaatcctcgcgcgcaagagcctcaccaccgaatcggccgcatacaggctttttgtgcgggacaagggct ccgagagaccgctggggatctcggacaagccttctcagctccagcgtcgtcgtctcattcaggcaggctacaccgagaacgatggcttggaagatatgggcagagacgatttgtcatacctgcttcgcttcgtctttcgccc cgacagtgttcccaccttcgactcggaatccatcggccacagcgagcacacattccagcatctcgatctgcacagccgcaatctcgaaatggtgcccatctttctgtataagcatgccgactggattgttagcctcgatctgt caggcaatcccatgtctgatcttccgctcgactttgtacagctctgttcaagcctgcgaactctgcgactctcaaacttggcgctcaagcgcatcccgcaaagtgtccggcacagcgaaaccttgacgcacctcgacgtatc caacaatcgaattgtcgagctcgcgcatgtcagtctcgatcttattccggagctcatgtcgctcaaggtgcaaaacaatcgtctctttgacttgccctcatacttttccagcatcagcacgctgaggaacctcaacatctctaac aaccgctttgaagaattccccaaggtcatctgcgacgtcccttcgctggtcgatcttgatgtgtcattcaattcgatcactgaattgcccgccgaaatcgccaacctcatcaacttagagcgcttcatcctagccggcaacga gctggaaaagctgccggacagcatgagcgagctcgtcagcttgcgcaccatcgacctgcgtcgtaacaaggtgcaggacgtttcgtcgctgcttggtcttccacgccttcaaaacatccaggccgagagcaacaacat caagtcgtttgaagctacactgggtccgcaactcactcaggtcgagctcggtcgcaacccactcagcaaggtgcgcatcgctgctctcaccacgtgcgatctcacctcgctcgacctgtcgtcgaccaacatgacgcgg ctcgaggaaggtctcttcccgcagctgcctgcgctcgtcaagctgacgctcgatggcaatcagctcgttgtgctgcccgacacgctcggagacttgaagcgactcgagatgctatcatgcagcaacaatctgcttgctacc ctccccgagtcgatcggtgatctcaaggcgctcaaggagctgcttgtgcacaacaacaacctcaaaacgcttccacagaccttgtggctctgcgagagcctcgcacacatcaatctcagctccaacttgctcgaatcgttc ccagcagtgcctgacattcgcaccgatgcttccgttggagatgcggctgcagctgccggcacttcggccgttatcgctgcacgaaagggatctacaagctcgtcgctgacgcacaggtctaacactggtggcgccaatg ggaacatcaatctctctacgccctccgaggtctttgtggcgccgctctcgctcagcctgcagaagctgcgtctgggagacaatcgtctaggcgatgacgttttcagtgtcctgtccgagctcacctcgctcgaggtgctcaac ctcagcttcaacgagatctttgagattcccgattttagtctccagacgctcaccaagctgcgtgagctatacatcagtggtaatcagcttagcacgattccttccgacgatcttgtggtgctacaagagctgcgcatcctccacc tcaactgcaacaagctcactactctccccaccgaacttggcaagctcaagaagctcgccaacctggatgtcggtaataacgtgctcaagtacaacattgccaattggcattacgactggaactggaacatgaacccgg agctacgctacctcaacctttccggcaacacgcgtctcgagatcaagaccaagctgagcgatatgggcttcacgcgcaagtccaacatctcggacttcagccgcttaaccagcttgcgcatgctgggtctcatggatgtc acaatgccattgcattcaaatgccacgccggatgagtcggacaaccgccgtgtgcgaacctcgctctcgcaggtcaacggaatggcttacggaatcgccgacgcactcggcaagcacgacaacttgagcgtcatcga tcttgtgattccaacattccgtaaggacgaaggagagtgcatttttggtctatttgacggtaggggccacggtgcacatgttggcagccgtatcgcgcatcacctggccgaatggagtggacatcgtctatcgtgggagttcc agaagcaccagaatgaaatgaccgccgaacctgtttcggttccggatgcgctgcgccgcgccttcctacgcctgcagaaggactacgccgacgcgctcatcaacgatggcagccgcaagctctctgaagcacacgc agaggcggctgcggatgtgacgcgaagctctgcgcctgcgattgcggccgcctccaacaagcatgactggcgcgccggcgcttccgcgattttagcgtacgtggtcgaccacacgctctacattgctaatgcgggtgat gctctggcggtcatgtcgcgcaacggtggcacagcacatctgatcagtaacaagcacgagccgtttgaccgtgccgagatcgagaggattcgatcggcggaaggatgggtctcgctgcgtggctatgtcaacgacatg ctcgatgtctcgcgttcgtttggctacttccatctgttcccgattgtcaatgctgcacctgcggtgacgacggtgcagttgactgactcggatgaatttgtgattatcgccaaccgcacgctgtggcagtatgtgtcgtaccagac cgcggtcgacattgcacgtacacagcgaaacgatcctatgattgcagcgcagaagctgcgagattttgccatcagctacggtgccgaggagagcatcatggtcatggtgatctcggtgggtgatttgttctatcgttcagat cagcgtaacggcggtggactcaactttgcgtcgtacaagaacagcgacgccatccaaaaggcaggacgtcgattccgcgaggagctgcctggcgatcgcacgctggcgagactggaccgtgaagtggcacctccc atcggacaggtggcgctggtgtttacggatatcaagaactcgacgtcgctgtgggagaccaacaatggcatgcagacggcgatgcgattgcacaactacctgttgcgacgacagttgcgcactattgggggttatgagg tcaagacggaaggcgatgcatttatggtttcattcccctcggtcagtgcagctctgctgtggtgttttacagtacagcaacagctgctgcaagaggactggccgcgcgagatcttggacagcgaggacggcaaggaggtg tacgatcagtcgggcgaactcattcatcgaggtctgtcggtgcgcatgggcattcactggggacggccagtgtgtgaggcggatccgatcacgagacgaatggactactttggaccgatggtgaaccgtgctgctcgaat cagcggtgcagccgatggcggtcagatcttggcgagcaaggacgtaatcaaggagctgcagggcctattgggtacgtttgacgagtcgtcgacagccggaggtgcgggcggagaaggtgaaaatctagagaagac cgaggaggagctagacgaggatgcgttccgactgctcaacccgaacgtcagccgcgatgtggtgctgctacgtaggatgggttttggtctatcgcagctgggagagcgcagactcaagggtttggagacgcccgagat gctgtggcttgtctatccgaagcagttagcaggacgtctggagcaggccaagaccgacgatgcacctgacgcacccacggcgcaagtgtatgagccgacagtgcagctgctagatatcgaggatgtaaagcaagtg ggcatgctctgcttgcgactcgagtatctgtccaactctacggtctgtcctggcatctttgctgccaaggatgaagcggatcgatcgcaaccttcgacgcctctggacgataacggacggaatccgatcgacggccacgga acggcggtgcccctgctgtcacaccaggcgcgacgcaaaggggttgaggcgatgttgacgatgcatcccgagctgctcatctacagcatccgagacgatgcgacggatgaagagttggcgggcatcttggatcagct gacgacgcggatccagaacgccgtgtcttcgctcatgctgaatatgttgcgggacaagacggccaacggtaccaaggaacttggcgtggatcctggggtgctcgagttgttgatgggcttgctttcacagccgcctccgc gagcgtcaacgtcggcgttgagtttgcccagcccacggacgagccctcgcaacaggctgttggagctggttccctag ...... Terminología • Genoma: conjunto de ADN de un organismo • Transcriptoma: población total de ARNm en una condición determinada • Proteoma: población total de proteínas en una condición determinada • Interactoma: descripción de todas las interacciones que tienen lugar entre moléculas • Metaboloma: descripción de todos los reactivos/productos/enzimas implicados en metabolismo • ORFeoma/predictoma: descripción de todas las proteínas potenciales codificadas por el genoma. Genoma anotado • Secretoma: descripción de todas las proteínas secretadas codificadas por el genoma Fig 21.17 Annotated, sequence-based map of an 8-mb segment of DNA at the tip of human chromosome 1. © 2003 John Wiley and Sons Publishers Fig 15.18 A single gene may produce a family of closely related polypeptides by using alternate pathways of exon splicing. Genomas bacterianos • Un gran número de genomas bacterianos secuenciados – Mycoplasma genitalium – 580,070 bases – Mycobacterium tuberculosis- 4.4 Mb – E. coli- 4.6 Mb • ~87% --- 4288 genes – ~30% bien caracterizado – ~38% función desconocida – Espacio promedio entre genes – 118 bp • 0.7% elementos repetitivos no codificantes • ~11% elementos reguladores o de función desconocida Genoma de levadura Sacchromyces cerevisae – – – – – – 16 cromosomas – 12 Mb 5885 genes codificantes de proteínas (1 gene/~2100 bp) 140 genes ARNr 275 genes ARNt 40 genes ARNsn Principal diferencia con procariotas • Redundancia genética – Múltiples copias de genes y secuencias no codificantes – Útil para estudair evolución de secuencias Genoma de C. elegans • Primer organismo multicelular secuenciado • 97 Mb – Relativamente poca cantidad de ADN repetitivo – 19,099 genes (1 gene/~5100 bp) • Mismo # de proteínas que llevan a cabo funciones básicas de la célula • Muchos genes específicios de organismo multicelulares – Señalización intercelular • 43% similitud con proteínas humanas Genoma de Drosophila melanogaster • 180 Mb – ~30% heterocromatina centromérica – 97% de eucromatina secuenciada – 13.601 genes – # de genes de copia única similar al de C. elegans – Contiene ~180 genes similares a 290 human genes humanos implicados en enfermedades • Drosophila un buen modelo para estudiar enfermedades Genoma de Arabidopsis thaliana • 125 Mb baja cantidad de elementos repetitivos • ~26,000 genes – 70% se encuentran duplicados o forman parte de familias de genes – ~15,000 genes claramente diferenciados Proyecto Genoma Humano • 2.95 Gb de 3.2 Gb es eucromatina – >90% de eucromatina secuenciada – ~1% de secuencias codifican proteínas • Se predicen entre 30.000 y 35,000 genes # poco elevado: • • • • Levaduras - 6,000 genes Drosophila - 13,000 genes C. elegans - 19,000 genes A. thaliana - 26,000 genes Genes en genoma humano • Exones 1.1 % • Intrones ~24% • Regiones intergénicas 74% • Tamaño promedio de genes – ~7 kb • Número promedio de intrones - 10 • Solo 94 de 1.278 familias de proteínas son específicas de vertebrados – Genes implicados en procesos bioquímicos básicos parece que evolucionaron solo una vez y se han mantenido de bacterias a levaduras y a mamíferos Genoma humano • 60% de proteínas predecidas son similares a otras secuencias • Principales diferencias con gusanos/moscas – Complejidad de las proteínasComplexity of proteins • Más dominios/proteína y nuevas combinaciones de dominios • Aparición de nuevas funciones en dominios ya existentes © 2003 John Wiley and Sons Publishers Fig 21.19 Pie chart showing homology of predicted human proteins to proteins of other species for those where homologues were detected by computer searches of the public databases. © 2003 John Wiley and Sons Publishers Fig 21.18 Functional classification of the 26,383 genes predicted by Celera Genomics’ first draft of the sequence of the human genome.