Transcript Genoma

Información en los seres vivos
• El fenotipo se correlaciona con el genotipo
• Dogma central: ADN - ARN - proteínas - rasgos
• Estable y transmisible
– Puede ser copiada y diseminada
• Capacidad de modificación
– Mutación
– Recombinación
– Sexo (intercambio de material genético)
Del genotipo al fenotipo
Material genético
(ADN)
Genes
Proteínas
Estructura
molecular
Función
Rasgos
Bacterias
Animales
Plantas
Hongos
Almacenamiento de la información
genética: estructura del ADN
Estructura del genoma de los
organismos procariotas
• Contienen un único cromosoma de estructura circular
• Básicamente ADN desnudo
• Mayoría de la secuencia de ADN compuesta por genes
E. coli- 4.6 Mb
~87% --- 4288
genes
Estructura del genoma de los
organismos eucariotas
• Material genético almacenado en el núcleo
• Organizado de forma compleja en varios
cromosomas de estructura linear
• ADN asociados a proteínas (histonas y no histonas):
fibras de cromatina
En los eucariotas la información genética se
reparte en un nº variable de cromosomas
Complejidad del genoma eucariota
• Parte del genoma de los organismos eucariotas
no codifica para proteínas:
– ADN altamente repetitivo, centrómeros, ADN satélite,
telómeros (5% del genoma humano)
– ADN moderadamente repetitivo, SINEs, LINEs, ARNr
y VNTRs (30% del genoma humano)
• Los organismos eucariotas contienen secuencia
no codificante (no traducida a proteína) incluso
dentro de la secuencia génica
Replicación del ADN
El ADN se replica en dirección 5’ – 3’
OH Extremo ·3’
Extremo 5’ P
T
A
P
O
O
P
T
A
P
O
OH
P
P
C
P
P
G
O
OH
C
P
Extremo 5’
Replicación del ADN
• Video replicación del ADN
• http://www.youtube.com/watch?v=zmu9O
PuXj-k&feature=related
El ADN contiene la información para
producir las proteínas de un organismo
Naturaleza química de las proteínas
• La unidad básica de la proteína
es el aminoácido, existen 20
aminoácidos distintos
• Los aminoácidos están unidos
covalentemente mediante
enlaces formando cadenas
(polipéptidos)
Proteínas
• Las proteínas son la clase más versátil de
macromoléculas en la célula
• Existen 20 amino ácidos diferentes que forman
parte de las proteínas
• Gran variedad de características químicas
• Pueden sufrir muchas modificaciones
bioquímicas que alteran o regulan su función
• Llevan a cabo la mayoría de las funciones
celulares
Niveles de organización de las proteínas
Flujo de la información genética para
generar proteínas
• ADN
• Código de 4 letras
• Largas moléculas con
miles de genes
• Proteína
• Código de 20 letras
• Moléculas de tamaño
discreto
(RT)
TRANSCRIPCIÓN
TRADUCCIÓN
Estructura los genes eucariotas
Transcrito
El “splicing” tiene lugar en el
“spliceosome”
http://www.youtube.com/watch?v=FVuAwBG
w_pQ
Transcripción
• Proceso complejo que implica varios pasos
• La ARN polimerasa sintetiza un molécula de ARN monocatenario
usando como molde la secuencia de una de las cadenas de ADN
• El inicio de la transcripción está regulado por factores de
transcripción que reconocen secuencias normalmente situadas justo
antes del punto de inicio de la transcripción (extremo 5’)
• Existen secuencias que indican el final de la transcripción, al ARN
recién sintetizado se le añade una secuencia de adeninas, la
denominada cola poli A
(RT)
TRANSCRIPCIÓN
TRADUCCIÓN
• Video síntesis de proteínas
• http://www.youtube.com/watch?v=FNqmh
4PoMPQ
Flujo de información, de la secuencia
geníca a la proteína
Regulación del flujo de la
información genética
ADN
Pre-ARNm
Transcripción
Cromatina
ADN-B
ADN-Z
Nivel principal
de regulación
Transcripciónal
ARNm
Splicing
Traducción
Proteína
Proteína
activa
Modificaciones
post-traduccionales
Estabilidad
Splicing
alternativo
Post-transcripción
Post-Traduccional
Splicing alternativo
• Hace referencia a variaciones en la forma de combinar
exones que generan diversas formas de una proteína
• El splicing alternativo de pre-ARNm es un importante
mecanismo de regulación de la expresión de genes en
eucariotas superiores. Regulación cualitativa
• Explica por ejemplo la existencia de aproximadamente
1.000.000 de anticuerpos diferentes en humanos a
pesar de que el genoma humano contiene únicamente
unos 30.000 genes
“Splicing alternativo”
Fig 24.4 Alternate splicing of transcripts from the rat troponin T gene.
Result in slightly different action of muscle
Genes expressed that
lead to female
development
Genes expressed that
lead to male
development
Fig 24.5 Alternate splicing of transcripts from the Sex-lethal gene in male and female Drosophila.
Bioinformática
• Las nuevas tecnologías de secuenciación
permiten secuenciar el genoma completo de un
organismo
• Se está generando una enorme cantidad de
datos
• ¿Cómo analizar todos estos datos?
– Bioinformática
• Fusión de las ciencias de la computación con la ciencia
genómica
• Desarrollo de nuevas herramientas para analizar datos
•
•
Contig 190 25703 - 32806
atgctctttaccatgcaattcaccactcgatccaccgtggcctcgcccgagcagcagcaccaacaccaacagcgcagtatctcgtactcggatatcgaacttggtcttgagcgcatcagctctcgcgacagcaatggcag
ctccaactttacgcacagagcctatcctccaccgctatctcagcaatatgacgacacatccaccaactcctttcattcatcgcagccagacatcacagcctcttcttcaactttgtcgtctcgcctcgtgagcgccaactactcc
cgtcctcggttcgagcatgcgcacactcaaccacccacacccgaccaagaccgctccagctccggctccggctccggctccggctctcgctcctactttcccgccaactcgcattccgactctttgcccggtcccagcact
catagcatcagcccttcctttgacgaggacgaactccgtcagatcatgtcgcacattccagctaaccaagccacgtccagctcggatggcgatgtaggcaaggccgtccagtctgccaaccatcaggacatcagtccgt
tcctcttccagagcgagaacgcagctcccttttcctcctcccactccaaccgtaccagtgtcaatccatccgcagcctcgaccgccagcccgtcgacttcggcggcaaccaggacacgtccgcgcgggggcaccaacg
cctcgcagtacaacaccctagacactagcttcggtagcatcgatcggcctggcctttcttcttcccgctctcagtattcattgcgcccacagaccccaccctcggcgtccacttccactagcactctcaacggctccaaggac
acgcacgcttctgccgtcaagaagacgcgcaatccgttcggctttctcaaaaagaagtcctcggcccactcaaatgcttcctcgaatcaccccacgcgccacgacatcggctcggtctcttcgctctcgtcgcgctacggt
cccaacgcggcggccaacgtcaatccgatgcgcccacctgcctggctcgataatcactgcacacttgccaactccaactcgccttcttcggcttcgctgcgctctcactaccaccagcctcctgcctcttcgaatccccctc
cttggcagaaccccctcgtgtctcgtgcagactcgactccttccgccatgagtctcgaagatgaggtcgaggctgagcatcatctcaagaaggaccctcgcaagcgcatcaaaggcgttcgccatcaccttgcaaagac
caccaagcccggcgaggacgccgactcggcacgcgaccctgcctttgcagcccagagccagtccatcgaacaagaggtcgaactctcgttggacatgaactttgaccagctcgatgactttgtcgacaccaacgcag
cgcgccagcggctccagggctcgatcactgagtctgccagtccttccgagcatcgctcaccaaacggaagcgaagccggcgtgtatcgctcgccatccccttcccagactcccattgccgaacgccagacttcggtca
cttctaccgtcgaatctccctcgcacgcctcggaagcctcgctcgcaccctcgggctctctgcgaaccccgagtcgcactactgcgtctacctctacctcgtccgcttccaccgtactcagcgaccgtcttccttcgcaggtca
acatgcttcctcgcaatagcgtccccaggctcagcctagccgagatgcaaaactaccagtcgctccgtaaactctcgaacaacctcatcgacatgtcccagacgcaaaacccttccgctatgggcgcatcctaccgccg
cggatccatcgcagccgcccaagcacctgtcgacgcgcctcagctaggtgtcgctcctcgtactgactctgagctctccgatcgcaaggacagcgtagtctctacccacagcatgcgctccaaccatagcggcatctcg
cccaagacctcatacgccaacctgcccagtgtcattcaggagcgtcagaagccggctactgcacttccctccgccgcgaattggacatcatccatcaccagagacaaaacggccaatggacatgctgaccacgccta
ccaatttccgcccgcaactgagtatcagtccaacttgctgctcagcgtgcgcaagtcgagtgccagctcggggcaggagcctagctccagctggatggctcccgacagttgggccgtacaaccggacaagatgcgcg
actatcttcgcgacgataatgtcggcgaggaggaagacgacgacgacgaccagcaccaagccagagccgctttggccaccgatggcaagaggcgcggttccagctccggtatcagctcgacgcatgcatcgagc
atgttccgcacctcatccaccgaccctttcaagaagactgcctcgcttgctggctcacgtcgcggcacggacgactcggtcgatccgctcaccgctttgcctccattgccaggctccaagtcggtggacgaggcagcagc
caacaaggtcgatgtactccagcagaccaataatctcgctcaatcggctctggtgcaacagcagtctcaatcccagaaccaccaccagcccagccccaacgtccgtcccacctcgagaggcggtgctggtgcccaca
tgtttgcctccgccggcgcttccgctgcagcagctgctgcgggcaagcttggtttacatcgtccatctaaacatcgtatgaacgcgcgacccaataccgcaggctccgttggtgcgacccgaccttccaccaccacgctcg
gctcgaccctctcggcagaggacgacacaagcatcaacggctccatccgacgcgacggccatccgctcaagcgctccgcaactgccaacacgaacaacgccacgggaactttgcctcgcaaccacttcatccgcg
tctacaagacggacggcacctttgcaacgctctcgtgctcactcgtctcgacggcaaacgaagtacagacaatcctcgcgcgcaagagcctcaccaccgaatcggccgcatacaggctttttgtgcgggacaagggct
ccgagagaccgctggggatctcggacaagccttctcagctccagcgtcgtcgtctcattcaggcaggctacaccgagaacgatggcttggaagatatgggcagagacgatttgtcatacctgcttcgcttcgtctttcgccc
cgacagtgttcccaccttcgactcggaatccatcggccacagcgagcacacattccagcatctcgatctgcacagccgcaatctcgaaatggtgcccatctttctgtataagcatgccgactggattgttagcctcgatctgt
caggcaatcccatgtctgatcttccgctcgactttgtacagctctgttcaagcctgcgaactctgcgactctcaaacttggcgctcaagcgcatcccgcaaagtgtccggcacagcgaaaccttgacgcacctcgacgtatc
caacaatcgaattgtcgagctcgcgcatgtcagtctcgatcttattccggagctcatgtcgctcaaggtgcaaaacaatcgtctctttgacttgccctcatacttttccagcatcagcacgctgaggaacctcaacatctctaac
aaccgctttgaagaattccccaaggtcatctgcgacgtcccttcgctggtcgatcttgatgtgtcattcaattcgatcactgaattgcccgccgaaatcgccaacctcatcaacttagagcgcttcatcctagccggcaacga
gctggaaaagctgccggacagcatgagcgagctcgtcagcttgcgcaccatcgacctgcgtcgtaacaaggtgcaggacgtttcgtcgctgcttggtcttccacgccttcaaaacatccaggccgagagcaacaacat
caagtcgtttgaagctacactgggtccgcaactcactcaggtcgagctcggtcgcaacccactcagcaaggtgcgcatcgctgctctcaccacgtgcgatctcacctcgctcgacctgtcgtcgaccaacatgacgcgg
ctcgaggaaggtctcttcccgcagctgcctgcgctcgtcaagctgacgctcgatggcaatcagctcgttgtgctgcccgacacgctcggagacttgaagcgactcgagatgctatcatgcagcaacaatctgcttgctacc
ctccccgagtcgatcggtgatctcaaggcgctcaaggagctgcttgtgcacaacaacaacctcaaaacgcttccacagaccttgtggctctgcgagagcctcgcacacatcaatctcagctccaacttgctcgaatcgttc
ccagcagtgcctgacattcgcaccgatgcttccgttggagatgcggctgcagctgccggcacttcggccgttatcgctgcacgaaagggatctacaagctcgtcgctgacgcacaggtctaacactggtggcgccaatg
ggaacatcaatctctctacgccctccgaggtctttgtggcgccgctctcgctcagcctgcagaagctgcgtctgggagacaatcgtctaggcgatgacgttttcagtgtcctgtccgagctcacctcgctcgaggtgctcaac
ctcagcttcaacgagatctttgagattcccgattttagtctccagacgctcaccaagctgcgtgagctatacatcagtggtaatcagcttagcacgattccttccgacgatcttgtggtgctacaagagctgcgcatcctccacc
tcaactgcaacaagctcactactctccccaccgaacttggcaagctcaagaagctcgccaacctggatgtcggtaataacgtgctcaagtacaacattgccaattggcattacgactggaactggaacatgaacccgg
agctacgctacctcaacctttccggcaacacgcgtctcgagatcaagaccaagctgagcgatatgggcttcacgcgcaagtccaacatctcggacttcagccgcttaaccagcttgcgcatgctgggtctcatggatgtc
acaatgccattgcattcaaatgccacgccggatgagtcggacaaccgccgtgtgcgaacctcgctctcgcaggtcaacggaatggcttacggaatcgccgacgcactcggcaagcacgacaacttgagcgtcatcga
tcttgtgattccaacattccgtaaggacgaaggagagtgcatttttggtctatttgacggtaggggccacggtgcacatgttggcagccgtatcgcgcatcacctggccgaatggagtggacatcgtctatcgtgggagttcc
agaagcaccagaatgaaatgaccgccgaacctgtttcggttccggatgcgctgcgccgcgccttcctacgcctgcagaaggactacgccgacgcgctcatcaacgatggcagccgcaagctctctgaagcacacgc
agaggcggctgcggatgtgacgcgaagctctgcgcctgcgattgcggccgcctccaacaagcatgactggcgcgccggcgcttccgcgattttagcgtacgtggtcgaccacacgctctacattgctaatgcgggtgat
gctctggcggtcatgtcgcgcaacggtggcacagcacatctgatcagtaacaagcacgagccgtttgaccgtgccgagatcgagaggattcgatcggcggaaggatgggtctcgctgcgtggctatgtcaacgacatg
ctcgatgtctcgcgttcgtttggctacttccatctgttcccgattgtcaatgctgcacctgcggtgacgacggtgcagttgactgactcggatgaatttgtgattatcgccaaccgcacgctgtggcagtatgtgtcgtaccagac
cgcggtcgacattgcacgtacacagcgaaacgatcctatgattgcagcgcagaagctgcgagattttgccatcagctacggtgccgaggagagcatcatggtcatggtgatctcggtgggtgatttgttctatcgttcagat
cagcgtaacggcggtggactcaactttgcgtcgtacaagaacagcgacgccatccaaaaggcaggacgtcgattccgcgaggagctgcctggcgatcgcacgctggcgagactggaccgtgaagtggcacctccc
atcggacaggtggcgctggtgtttacggatatcaagaactcgacgtcgctgtgggagaccaacaatggcatgcagacggcgatgcgattgcacaactacctgttgcgacgacagttgcgcactattgggggttatgagg
tcaagacggaaggcgatgcatttatggtttcattcccctcggtcagtgcagctctgctgtggtgttttacagtacagcaacagctgctgcaagaggactggccgcgcgagatcttggacagcgaggacggcaaggaggtg
tacgatcagtcgggcgaactcattcatcgaggtctgtcggtgcgcatgggcattcactggggacggccagtgtgtgaggcggatccgatcacgagacgaatggactactttggaccgatggtgaaccgtgctgctcgaat
cagcggtgcagccgatggcggtcagatcttggcgagcaaggacgtaatcaaggagctgcagggcctattgggtacgtttgacgagtcgtcgacagccggaggtgcgggcggagaaggtgaaaatctagagaagac
cgaggaggagctagacgaggatgcgttccgactgctcaacccgaacgtcagccgcgatgtggtgctgctacgtaggatgggttttggtctatcgcagctgggagagcgcagactcaagggtttggagacgcccgagat
gctgtggcttgtctatccgaagcagttagcaggacgtctggagcaggccaagaccgacgatgcacctgacgcacccacggcgcaagtgtatgagccgacagtgcagctgctagatatcgaggatgtaaagcaagtg
ggcatgctctgcttgcgactcgagtatctgtccaactctacggtctgtcctggcatctttgctgccaaggatgaagcggatcgatcgcaaccttcgacgcctctggacgataacggacggaatccgatcgacggccacgga
acggcggtgcccctgctgtcacaccaggcgcgacgcaaaggggttgaggcgatgttgacgatgcatcccgagctgctcatctacagcatccgagacgatgcgacggatgaagagttggcgggcatcttggatcagct
gacgacgcggatccagaacgccgtgtcttcgctcatgctgaatatgttgcgggacaagacggccaacggtaccaaggaacttggcgtggatcctggggtgctcgagttgttgatgggcttgctttcacagccgcctccgc
gagcgtcaacgtcggcgttgagtttgcccagcccacggacgagccctcgcaacaggctgttggagctggttccctag ......
Terminología
• Genoma: conjunto de ADN de un organismo
• Transcriptoma: población total de ARNm en una condición
determinada
• Proteoma: población total de proteínas en una condición
determinada
• Interactoma: descripción de todas las interacciones que tienen
lugar entre moléculas
• Metaboloma: descripción de todos los reactivos/productos/enzimas
implicados en metabolismo
• ORFeoma/predictoma: descripción de todas las proteínas
potenciales codificadas por el genoma. Genoma anotado
• Secretoma: descripción de todas las proteínas secretadas
codificadas por el genoma
Fig 21.17 Annotated, sequence-based
map of an 8-mb segment of DNA at the tip
of human chromosome 1.
© 2003 John Wiley and Sons Publishers
Fig 15.18 A single gene may produce a family of closely related
polypeptides by using alternate pathways of exon splicing.
Genomas bacterianos
• Un gran número de genomas bacterianos
secuenciados
– Mycoplasma genitalium – 580,070 bases
– Mycobacterium tuberculosis- 4.4 Mb
– E. coli- 4.6 Mb
• ~87% --- 4288 genes
– ~30% bien caracterizado
– ~38% función desconocida
– Espacio promedio entre genes – 118 bp
• 0.7% elementos repetitivos no codificantes
• ~11% elementos reguladores o de función desconocida
Genoma de levadura
Sacchromyces cerevisae
–
–
–
–
–
–
16 cromosomas – 12 Mb
5885 genes codificantes de proteínas (1 gene/~2100 bp)
140 genes ARNr
275 genes ARNt
40 genes ARNsn
Principal diferencia con procariotas
• Redundancia genética
– Múltiples copias de genes y secuencias no codificantes
– Útil para estudair evolución de secuencias
Genoma de C. elegans
• Primer organismo multicelular secuenciado
• 97 Mb
– Relativamente poca cantidad de ADN
repetitivo
– 19,099 genes (1 gene/~5100 bp)
• Mismo # de proteínas que llevan a cabo funciones
básicas de la célula
• Muchos genes específicios de organismo
multicelulares
– Señalización intercelular
• 43% similitud con proteínas humanas
Genoma de Drosophila melanogaster
• 180 Mb
– ~30% heterocromatina centromérica
– 97% de eucromatina secuenciada
– 13.601 genes
– # de genes de copia única similar al de C.
elegans
– Contiene ~180 genes similares a 290 human
genes humanos implicados en enfermedades
• Drosophila un buen modelo para estudiar
enfermedades
Genoma de Arabidopsis thaliana
• 125 Mb baja cantidad de elementos
repetitivos
• ~26,000 genes
– 70% se encuentran duplicados o forman parte
de familias de genes
– ~15,000 genes claramente diferenciados
Proyecto Genoma Humano
• 2.95 Gb de 3.2 Gb es eucromatina
– >90% de eucromatina secuenciada
– ~1% de secuencias codifican proteínas
• Se predicen entre 30.000 y 35,000 genes
# poco elevado:
•
•
•
•
Levaduras - 6,000 genes
Drosophila - 13,000 genes
C. elegans - 19,000 genes
A. thaliana - 26,000 genes
Genes en genoma humano
• Exones 1.1 %
• Intrones ~24%
• Regiones intergénicas 74%
• Tamaño promedio de genes – ~7 kb
• Número promedio de intrones - 10
• Solo 94 de 1.278 familias de proteínas son
específicas de vertebrados
– Genes implicados en procesos bioquímicos básicos
parece que evolucionaron solo una vez y se han
mantenido de bacterias a levaduras y a mamíferos
Genoma humano
• 60% de proteínas predecidas son
similares a otras secuencias
• Principales diferencias con
gusanos/moscas
– Complejidad de las proteínasComplexity of
proteins
• Más dominios/proteína y nuevas combinaciones
de dominios
• Aparición de nuevas funciones en dominios ya
existentes
© 2003 John Wiley and Sons Publishers
Fig 21.19 Pie chart showing homology of predicted
human proteins to proteins of other species for those
where homologues were detected by computer
searches of the public databases.
© 2003 John Wiley and Sons Publishers
Fig 21.18 Functional classification of the 26,383 genes
predicted by Celera Genomics’ first draft of the
sequence of the human genome.