¿Que es Bioinformática/ Biología Computacional?

Download Report

Transcript ¿Que es Bioinformática/ Biología Computacional?

¿Que es Bioinformática/
Biología Computacional?
• Bioinformatica: recopilación y
almacenamiento de información biológica
(AND/ARN) proteina
• Biología computacional: El desarrollo de
algoritmos y métodos estadísticos para el
análisis de datos biológicos.
• Aunque en concepto son diferentes, los
términos Bioinformática y Biología
computacional se usan indistintamente.
¿Que es Bioinformática/
Biología Computacional?
Source: http://ccb.wustl.edu/
¿Que es diferente en BC?
•
No se busca la solución “exacta” sino
la biológicamente relevante
– No interesan los mínimos globales
porque la función de costo es
heurísitca y puede tener mínimos
irrelevantes.
– Se introduce la noción de
significado biológico de
una solución óptima o
quasi-óptima desde el
punto de vista matemático
•
La definición del problema es
imprecisa (entre otras cosas por falta
de conocimiento)
¿Que es diferente en BC?
•
Es prioritario analizar conjuntos de soluciones quasi-óptimas, en
lugar de únicamente la óptima.
•
La validación experimental de los algoritmos tiene precedencia
sobre el análisis matemático.
•
La definición del modelo es la parte mas relevante de la
resolución del problema.
•
Bioinformática =/= Biología + Computación
¿Porqué está de actualidad la BC?
• Oferta/Demanda: Hay muy poca gente con una formación adecuada
en biología e informática
• Los proyectos de secuenciación genómica, análisis en microchips
(microarrays), proteómica, metabolómica, etc.… estan produciendo
enormes cantidades de datos que tienen que ser analizados.
• Ahorra gran cantidad de tiempo y dinero
Un poco de Historia
Evolution
Classification
in biology
Charles Darwin
(1807-1882)
Genetics
Carl von Linne
(1707-1778)
1869
1952
1953
1970
1983
Discovery of nuclein Friedrich Miescher (1844-1895)
DNA is the genetic material Hershey-Chase
Molecular structure of DNA Chargaff,
1962 Nobel Prize James Watson, Francis Crick
Recombinant DNA, DNA sequencing
1980 Nobel Prize Walter Gilbert, Frederick Sanger, Paul Berg
Amplification of DNA (PCR) Kary Mullis & others, 1993 Nobel Prize
Gregor Mendel
(1822-1884)
Un poco de Historia
H. influenzae
S. cerevisiae
C. elegans
Drosophila
H. sapiens
1.8 Mbp
12 Mbp
100 Mbp
180 Mbp
3200 Mbp
Overview: TIGR (The institute of genomic research)
http://www.tigr.org/tdb/mdb/mdbcomplete.html
http://www.tigr.org/tdb/mdb/mdbinprogress.html
(1995)
(1997)
(1998)
(2000)
(2001)
Un poco de Historia
Number of Entries in EMBL Database
June 2002: 23.860.228.282 Bases; 17.807.526 Entries
Bases x 1000
Entries
20.000.000
02
20
00
20
98
96
19
94
92
19
90
86
88
19
19
19
19
Source HUSAR
19
19
84
10.000.000
Un poco de Historia
15 February 2001
Secuenciacion completa del genoma
humano
El genoma humano es:
• It is small
• It is empty
• It is unoriginal
• It is repetitive
Comparación de genomas
ORGANISM
CHROMOSOMES
GENOME SIZE
GENES
Homo sapiens
(Humans)
23
3,200,000,000
~ 30,000
Mus musculus
(Mouse)
20
2,600,000,000
~30,000
Drosophila
melanogaster
(Fruit Fly)
4
180,000,000
~18,000
Saccharomyce
s cerevisiae
(Yeast)
Zea mays
(Corn)
16
14,000,000
~6,000
10
2,400,000,000
???
La complejidad del genoma
NO se correlaciona con el número
cromosomas
Homo sapiens
Lysandra atlantica
Ophioglossum
reticulatum
250
4646
1260
La complejidad del genoma
NO se correlaciona con su tamaño
Homo sapiens
3,4 x 10 9 bp
Amoeba dubia
6,7 x 10 11 bp
La complejidad del genoma
NO se correlaciona con el número
de genes
~50,000 genes
~31,000 genes
~26,000 genes
Comparación con genomas mas
cercanos
CHIMP GENOME
Chimpanzees are similar to humans in so many
ways: they are socially complex, sensitive and
communicative, and yet indisputably on the animal
side of the man/beast divide. Scientists have now
sequenced the genetic code of our closest living
relative, showing the striking concordances and
divergences between the two species, and perhaps
holding up a mirror to our own humanity.
Humanos
vs
Primates
La comparación del genoma humano
con el de los Primates dio como resultado
diferencias de solo el 1%
Homo sapiens y Pan troglodytes (Orangutan)
 99.0% identical
Homo sapiens y Chimpance
 99.9 % identical !!!!!
Humans are not at all original in comparison
with other vertebrates.
From Olson and Varki
(2002) Nat Rev Gen 4: 20-28
Dogma Central de
la Biología Molecular
The central dogma states that once “information” has passed into protein, it cannot get
out again. The transfer of information from nucleic acid to nucleic acid, or from nucleic
acid to protein may be possible, but transfer from protein to protein, or from protein to
nucleic acid, is impossible. Information means here the precise determination of sequence,
either of bases in the nucleic acid or of amino acid residues in the protein.
Francis Crick, 1958
DNA
RNA
Phenotype
protein
cDNA
Los límites
• El dogma:
Gen
Proteina
Función
No se puede aplicar a todas las funciones biológicas.
• Los procesos celulares implican una gran cantidad
de productos genicos asi como interacciones entre ellos.
Los procesos celulares son complejos
y multidimensionales.
Condiciones que llaman la atención sobre la
necesidad de hacer otro tipo de investigación….
ahi es donde entra en juego la bioinformatica.
Biología Molecular: un resumen
•
•
•
•
•
Células
ADN (DNA)
ARN (RNA)
Amino Acidos (AA)
Proteinas
Biología Molecular: Células
• Sistema complejo
envuelto en una
membrana
• Los organismos pueden
ser unicelulares
(bacteria, levadura) o
multicelulares
• Humanos:
– 60 trillion células
– 320 tipos de células
Célula Animal
www.ebi.ac.uk/microarray/ biology_intro.htm
Biología Molecular: Procariotas
Vs Eucariotas
•
Eucariotas: tienen una
membrana nuclear y orgánulos
(plantas, animales, hongos,…)
•Procariotas: no tienen una membrana
Que separe núcleo y orgánulos (bacteria)
•NO todos los organismos unicelulares son procariotas (levadura)
BIOS Scientific Publishers Ltd, 1999
GCCACATGTAGATAATTGAAACTGGATCCTCATCCCTCGCCTTGTACAAAAATCAACTCCAGATGGATCTAAG
ATTTAAATCTAACACCTGAAACCATAAAAATTCTAGGAGATAACACTGGCAAAGCTATTCTAGACATTGGCTT
AGGCAAAGAGTTCGTGACCAAGAACCCAAAAGCAAATGCAACAAAAACAAAAATAAATAGGTGGGACCTGATT
AAACTGAAAAGCCTCTGCACAGCAAAAGAAATAATCAGCAGAGTAAACAGACAACCCACAGAATGAGAGAAAA
TATTTGCAAACCATGCATCTGATGACAAAGGACTAATATCCAGAATCTACAAGGAACTCAAACAAATCAGCAA
GAAAAAAATAACCCCATCAAAAAGTGGGCAAAGGAATGAATAGACAATTCTCAAAATATACAAATGGCCAATA
AACATACGAAAAACTGTTCAACATCACTAATTATCAGGGAAATGCAAATTAAAACCACAATGAGATGCCACCT
TACTCCTGCAAGAATGGCCATAATAAAAAAAAATCAAAAAAGAATAAATGTTGGTGTGAATGTGGTGAAAAGA
Es un alfabeto de 4 caracteres
GAACACTTTGACACTGCTGGTGGGAATGGAAACTAGTACAACCACTGTGGAAAACAGTACCGAGATTTCTTAA
AGAACTACAAGTAGAACTACCATTTGATCCAGCAATCCCACTACTGGGTATCTACCCAGAGGAAAAGAAGTCA
Este alfabeto de 4 caracteres contiene suficiente información para
TTATTTGAAAAAGACACTTGTACATACATGTTTATAGCAGCACAATTTGCAATTGCAAAGATATGGAACCAGT
crear organismos complejos, mediante el uso de largas palabras
CTAAATGCCCATCAACCAACAAATGGATAAAGAAAATATGGTATATATACACCATGGAACACTACTCAGCCAT
AAAAAGGAACAAAATAATGGCAACTCACAGATGGAGTTGGAGACCACTATTCTAAGTGAAATAACTCAGGAAT
GGAAAACCAAATATTGTATGTTCTCACTTATAAGTGGGAGCTAAGCTATGAGGACAAAAGGCATAAGAATTAT
ACTATGGACTTTGGGGACTCGGGGGAAAGGGTGGGAGGGGGATGAGGGACAAAAGACTACACATTGGGTGCAG
Similitud con el codigo binario
TGTACACTGCTGAGGTGATGGGTGCACCAAAATCTCAGAAATTACCACTAAAGAACTTATCCATGTAACTAAA
AACCACCTCTACCCAAATAATTTTGAAATAAAAAATAAAAATATTTTAAAAAGAACTCTTTAAAATAAATAAT
GAAAAGCACCAACAGACTTATGAACAGGCAATAGAAAAAATGAGAAATAGAAAGGAATACAAATAAAAGTACA
GAAAAAAAATATGGCAAGTTATTCAACCAAACTGGTAATTTGAAATCCAGATTGAAATAATGCAAAAAAAAGG
CAATTTCTGGCACCATGGCAGACCAGGTACCTGGATGATCTGTTGCTGAAAACAACTGAAAATGCTGGTTAAA
ATATATTAACACATTCTTGAATACAGTCATGGCCAAAGGAAGTCACATGACTAAGCCCACAGTCAAGGAGTGA
GAAAGTATTCTCTACCTACCATGAGGCCAGGGCAAGGGTGTGCACTTTTTTTTTTCTTCTGTTCATTGAATAC
AGTCACTGTGTATTTTACATACTTTCATTTAGTCTTATGACAATCCTATGAAACAAGTACTTTTAAAAAAATT
GAGATAACAGTTGCATACCGTGAAATTCATCCATTTAAAGTGAGCAATTCACAGGTGCAGCTAGCTCAGTCAG
CAGAGCATAAGACTCTTAAAGTGAACAATTCAGTGCTTTTTAGTATATTCACAGAGTTGTGCAACCATCACCA
CTATCTAATTGGTCTTAGTCTGTTTGGGCTGCCATAACAAAATACCACAAACTGGATAGCTCATAAACAACAG
GCATTTATTGCTCACAGTTCTAGAGGCTGGAAGTGCAAGATTAAGATGCCAGCAGATTCTGTGTCTGCTGAGG
¿Que es el ADN?
¿Que es el ADN?
• DNA: Deoxyribonucleic Acid
(ácido dexosiribonucleíco)
• 4 nucleotidos:
– Adenosina (A)
– Citosina (C)
– Guanina (G)
– Timina (T)
Image source: www.biotec.or.th/Genome/whatGenome.html
Acidos nucleicos
El bloque básico necesario es:
Bases nitrogenadas
• Purinas (A and G)
• Pirimidinas (C and T)
Un azúcar (deoxiribosa)
Un fosfato
Image Source: www.ebi.ac.uk/microarray/ biology_intro.htm
Polinucleótidos de ADN
• Los cuatro nucleótidos
pueden unirse mediante
fosfatos para formar
cadenas de nucleótidos
• Los finales de la hebra son
distintos
• Hay direccionalidad en la
hebra de ADN
• Por convencion se marca la
hebra codificante como 5’ to
3’
http://www.emc.maricopa.edu/faculty/farabee/BIOBK/BioBookDNAMOLGEN.html
Doble hebra de ADN
El ADN en realidad está formado
por dos cadenas
Las cadenas avanzan en sentido opuesto
y que están ligadas por enlaces
complementarios de bases nitrogenadas : A, T, G y C
Eso significa que la segunda cadena es
reversa y complementaria
La doble hélice tiene siempre una anchura
constante porque las purinas se enfrentan
siempre a las pirimidinas.
Doble hélice
• La doble hélice es la estructura más estable del ADN.
5’ GTAAAGTCCCGTTAGC 3’
|
| | |
|
| | | |
| |
| | | |
|
3’ CATTTCAGGGCAATCG 5’
Image source; www.ebi.ac.uk/microarray/ biology_intro.htm
Acido Ribonucléico ARN
•Similar al ADN, el bloque consta de:
• Bases nitrogenadas: A, C, G.
La Timina (T) se reemplaza
por un Uracilo (U)
• Un azúcar, en este caso una Ribosa
• Un fosfato
• RNA can be:
–Hebra simple
–Hebra doble
–Hebra hibrida AND-AR
El RNA puede formar estructuras terciarias
phosphate
group
base
(uracil)
sugar (ribose)
Tipos de ARN
• ARN mensajero (mRNA)
– Contiene la información para construir
una proteina.
• ARN ribosomal (rRNA)
– Componente mayoritario de los
ribosomas
• ARN transferente (tRNA)
– Encargado de llevar los amino acidos a
los ribosomas para la síntesis de
proteinas
ARN mensajero
•
•
•
Molécula linear que contiene información genética copiada del AND. Tiene
regiones codificadoras y regiones no codificadoras como la cabeza o líder y
la cola.
Los mensajeros de eucariotas tienen un cap o gorra en el extremo 5’ y una
cola polyA en el extremo 3’.
Transcription: es el proceso por el cual una molécula de AND es copiada a
una de ARN.
Dirección de la transcipción
ARN transferente
Juega un papel crítico en la sintesis de proteinas llevando aa al ribosoma
Tienen una estructura tridimensional muy bien definida
Amino ácido
codon in mRNA
anticodon in tRNA
amino
acid
Anti codon
ARNm
5’ GTAAAGTCCCTTTAGC 3’
Doble papel:
• adaptador que reconoce al amino ácido
en el extremo 3’
• El anticodón se empareja con el codón en el ARNm
ARN ribosomal
Componente mayoritario de los ribosomas
Los ribosomas llevan a cabo la síntesis de proteínas asociándose con
los diferentes ARNm que proporcionan la secuencia de codificación
real y los ARNt que les proporcionan los aa
Código genético
•
•
•
•
•
•
•
4 nucleótidos posibles (A, C, G, U)
Un codón tiene 3 bases
4 * 4 * 4 = 64 codones posibles
Codón de inicio: AUG
Codón de parada o Stop: UAA, UAG, UGA
61 codones codifican amino ácidos (AUG también Metionina)
Solo existen 20 amino acidos – redundancia del código genetico
code
Código genético es Universal
•
•
•
•
•
•
•
•
Todos los organismos usan el
mismo código genético
Un amino ácido esta codificado por
3 nucleótidos = Código genético
4 nucleótidos posibles (A, C, G, U)
Un codón tiene 3 bases
4 * 4 * 4 = 64 codones posibles
Codón de inicio: AUG
Codón de parada o Stop: UAA, UAG,
UGA
61 codones codifican amino ácidos (AUG
también Metionina)
Redundancia del Código genético
•Solo existen 20 amino acidos – pero 64 codones posibles
DNA
mRNA
mRNA
codons
amino
acids
threonine
proline
glutamate
glutamate
lysine
Amino ácidos
• Elementos constitutivos de las proteinas (20 different)
• Tienen un grupo radical variable que los caracteriza
• Los amino ácidos tienen diferentes características bioquímicas y
físicas, las cuales determinan su capacidad de ser reemplazados en
la evolución.
muy pequeños
alifáticos
P
C S+S
I
V
A
L
hidrofóbicos
M
F
pequeños
G
G
CSH
T
Y
S
N
D
K
W
H
E
R
Q
aromaticos
cargados
positivos
polares
Código genético
Los ARNm se pueden leer
en tres diferentes marcos
de lectura, pero solo
uno de ellos codifica la
proteína correcta
Proteínas
Los aa se unen mediante enlaces peptídicos entre el grupo
carboxilo terminal de un aa y el grupo amino de otro.
Péptido: Cadena corta de aa (< 30)
Polipéptido: cadena larga de aa (hasta 4000 residuos).
La secuencia de aa, su tipo y orden constituyen la Estructura primaria de
la proteína
Tyr Gly Phe
Residuo amino
terminal
Leu Val
Gly Ser
Residuo carboxilo
terminal
Proteínas
Estructura secundaria: producto del establecimiento de puentes
de hidrógeno entre distintos átomos de los aa
Helices alfa: enrrollamiento espiral
p.ejem proteinas fibrosas como piel y uñas
Cada hélice tiene 3,6 aa por vuelta
Proteínas
Estructura secundaria: producto del establecimiento de puentes
de hidrógeno entre distintos átomos de los aa
Beta plegada: estructura en zig-zag resistente y flexible
p.ejem fibroína (proteína de la seda)
Dos o mas polipéptidos se situan de forma paralela entre
ellos y se unen mediante puentes de hidrógeno. Estos
puentes de hidrógeno se establecen entre diferentes
segmentos del polipétido a diferencia con las alfa hélices
Proteínas
Estructura terciaria: Es la forma global de cada proteína.
Depende de las interacciones entre los grupos radicales de la
misma cadena polipetídica ocasionada por: puentes de
hidrógeno, atración iónica, condición hidrofóbica o hidrofílica y
puentes disulfuro.
Figure shows
the tertiary structure of
Chain B of Protein
Kinase C Interacting
Protein
Péptido individual doblado
Proteínas
Estructura cuaternaria: Es propia de las proteínas globulares y
es la conformación tridimensional de la unión de dos o más
cademas polipeptídicas, generadas por las mismas
interacciones anteriormente citadas.
Agregado de
dos o
más péptidos
Figure shows the tertiary structure
of Chain B of Protein Kinase C
Interacting Protein
Volvemos al principio…
“El dogma central”
ADN
Trascripción
ARN
Translación
Proteína
Traducción