Clases 10 y 11

Download Report

Transcript Clases 10 y 11

TEORIA DE GRAFOS EN
BIOINFORMATICA
Contenidos
 Introducción
a la Teoría de Grafos
 Circuito Euleriano y Ciclo Hamiltoniano
 Grafo de Intervalos y Experimento de
Benzer
 Secuenciación del ADN
 Problemas SSP y TSP
 Secuenciación mediante Hibridación
 Ensamblado de Fragmentos
 Réplicas de ADN
El Problema de Königsberg
Hallar un tour que pase por cada puente
exactamente una vez (sin repetir visita).
Leonhard Euler, 1735
Puentes de Königsberg
Problema del Circuito Euleriano

Hallar un circuito que
visite cada arista.
exactamente una vez
 Se resuelve en orden
lineal en la cantidad de
aristas.
En ejemplo más complejo
Problema del Ciclo
Hamiltoniano

Hallar un ciclo que
visite cada vértice una
vez.

Pertenece a la clase de
Probemas NP
completos
“Juego” inventado por
William Hamilton en 1857
Grafos en Química

Arthur Cayley
estudió estructuras
químicas de
hidrocarburos a
mediados de 1800.
 Usó árboles para
enumerar isómeros
Teoría de Grafos en Biología:
Inicios
Experimento de
Benzer

Desarrolló
“deletion maping”.
 “Probó” la linealidad
del gen.
 Halló la estructura
interna del gen.
Seymour Benzer, 1950
¡Virus atacando Bacterias!





Normalmente el bacteriófago T4 mata
bacterias.
Si le removemos un gen pierde su habilidad
de matar a la bacteria.
Si la bacteria es atacada con dos mutados
diferentes, ¿la bacteria sobrevivirá?
Sorprendentemente, dos virus mutados
matarán a la bacteria en ocasiones
especiales.
Cómo es posible?
Experimento de Benzer
 Idea:
infectar bacterias con bacteriófagos
mutantes T4 (virus).
 Cada mutante T4 carece de un intervalo
de su genoma.
 Si los intervalos se solapan, el par T4
carece de parte esencial de su genoma y
la bacteria sobrevive.
 Si no se solapan: el par T4 tiene su
genoma completo y la bacteria muere.
Experimento de Benzer y Grafos
 Construir
un grafo intervalo: cada
mutante es un vértice T4. Dos T4 se
conectan con arista cuando cuando la
bacteria sobrevive (los intervalos borrados
se solapan).
 La estructura del grafo intervalo revela si
el ADN es lineal o ramificada.
Grafos intervalo: Genes
Lineales
Grafos Intervalo: Genes
Ramificados
Comparación
Genoma Lineal
Genoma Ramificado
Secuenciación del ADN:
Historia
Método de Sanger
(1977):
Terminales ddNTPs
Copia de ADN en
puntos aleatorios.
Gilbert method (1977):
Método químico (tóxico)
Rompe la cadena de ADN
en puntos (G, G+A,
T+C, C).
Ambos generan
fragmentos de largos
variables luego sometidos
a electroforesis.
Lecturas de Sanger
1.
Iniciar el cebo.
2.
Crecer el largo de la
cadena de ADN
3.
Incluir ddNTPs.
4.
Frenar la reacción en
varios puntos.
5.
Separar productos
según largos, en base a
electroforesis.
Secuenciación del ADN
• Romper el ADN en
millones de
fragmentos.
• Tomar lecturas de
500 a 700 nucleótidos
de los fragmentos
prqueños (método de
Sanger)
Ensamble de los Fragmentos
• Desafío Computational: ensamblar
lecturas asociadas a fragmentos
individuales en una única secuencia
genómica (“supercadena”)
• Hasta la década del 90` el ensamble de
fragmentos del genoma humano por
disparo era visto como un problema
computacional intratable.
Problema de la Supercadena
(SSP)

Problema: Dado un conjunto de cadenas,
encontrar la cadena más corta que las
contenga.
 Entrada: Cadenas s1, s2,…., sn
 Salida: Cadena s de largo mínimo tal que
contiene s1, s2,…., sn como subcadenas.


Complejidad: Este problema es NP – completo
Nota: Esta formulación no toma en cuenta errores
de secuenciación.
Ejemplo:
Reducción del SSP al TSP


Sea (sm, sn ) el largo del mayor prefijo de sn que es
sufijo de sm.
Ejemplo:
aaaggcatcaaatctaaaggcatcaaa
aaaggcatcaaatctaaaggcatcaaa
Cuánto vale (sm, sn ) ?
Reducción del SSP al TSP


Sea (sm, sn ) el largo del mayor prefijo de sn que es
sufijo de sm.
Ejemplo:
aaaggcatcaaatctaaaggcatcaaa
aaaggcatcaaatctaaaggcatcaaa
(sm, sn ) = 12
Reducción del SSP al TSP

Sea (sm, sn ) el largo del mayor prefijo de sn que es
sufijo de sm.
aaaggcatcaaatctaaaggcatcaaa
aaaggcatcaaatctaaaggcatcaaa

Construir un grafo con n vértices que representan
las cadenas s1, s2,…., sn.
Insertar aristas de largo (su, sv ) entre los vértices su
y sv.
Hallar el tour más corto que visite cada vértice
exactamente una vez. Este es el Traveling
Salesman Problem (TSP), que es NP – completo.


Reducción del SSP al TSP
Del SSP al TSP: Ejemplo
S = { ATC, CCA, CAG, TCC, AGT }
TSP
SSP
ATC
AGT
CCA
TCC
CAG
1
1
AGT
1
ATC
ATCCAGT
2
0
CCA
1
2
2
CAG
1
2
TCC
ATCCAGT
Secuenciación por Hibridación (SBH)



1988: SBH sugiere un
método nuevo de
secuenciación. Nadie creía
que fuese a funcionar
1991: Steve Fodor
desarrolla la síntesis
polimeral con luz dirigida.
1994: Affymetrix desarrolla
el primer microarreglo de
64-kb de ADN
Primer prototipo
microarreglo (1989)
Primer microarreglo
comercial (1994)
500000 características
por chip (2002)
¿Cómo funciona SBH?

Adjuntar todas las posibles cadenas de ADN de
largo l a una superficie plana en puntos conocidos.
A este conjunto se le denomina arreglo de ADN.

Aplicar una solución fluorescente al arreglo que
contiene fragmentos de ADN.

Los fragmentos de ADN hibridizan con pruebas
complementarias a las subcadenas de largo l del
fragmento.
¿Cómo funciona SBH?

Mediante detector espectroscópico se determina
qué pruebas hibridizan al fragmento de ADN
para obtener todas las subcadenas de largo l
del fragmento objetivo del ADN.

Aplicar un algoritmo combinatorio que
reconstruya la secuencia de ADN objetivo a
partir de sus subcomposiciones.
Hibridazión del Arreglo de ADN
Composición por Subcadenas



Espectro( s, l ) – es un multiset desordenado con
todas las posibles (n – l + 1) subcadenas de largo l de
una cadena s con largo n.
El orden de los elementos del espectro no importa.
Ejemplo: si s = TATGGTGC todas las siguientes
representaciones del Espectro ( s, 3 ) son correctas
{TAT, ATG, TGG, GGT, GTG, TGC}
{ATG, GGT, GTG, TAT, TGC, TGG}
{TGG, TGC, TAT, GTG, GGT, ATG}
Secuencias Co-Espectrales
 Diferentes
secuencias pueden tener el
mismo espectro:
Espectro(GTATCT,2)=
Espectro(GTCTAT,2)=
{AT, CT, GT, TA, TC}
Problema de Hibridazión (SBH)
 Objetivo:
Reconstruir una cadena de sus
subcadenas de tamaño l.
 Entrada:
Un conjunto S, que representa
todas las subcadenas de largo l de una
cadena s.
 Salida:
Cadena s tal que Espectro(s,l ) = S
SBH: Enfoque Hamiltoniano
S = { ATG AGG TGC TCC GTC GGT GCA CAG }
H
ATG
AGG
TGC
TCC
GTC
GGT
ATG CAGG TC C
Camino que visita una vez cada vértice
GCA
CAG
SBH: Enfoque Hamiltoniano
Un grafo más complicado:
S = {ATG TGG TGC
H
GTG
GGC GCA GCG
CGT }
SBH: Enfoque Hamiltoniano
S={ ATG TGG
Camino 1:
TGC
GTG GGC GCA GCG CGT}
ATGCGTGGCA
H
Camino 2:
H
ATGGCGTGCA
SBH: Enfoque Euleriano
S = { ATG, TGC, GTG, GGC, GCA, GCG, CGT }
Los vértices son las l – subcadenas : { AT, TG, GC, GG, GT, CA, CG }
Las aristas son las subcadenas de mayor solapamiento de S
GT
AT
TG
CG
GC
GG
CA
Se visita una vez cada arista
SBH: Enfoque Euleriano
S = { AT, TG, GC, GG, GT, CA, CG } se corresponde con dos
caminos diferentes:
GT
AT
TG
CG
GC
GG
ATGGCGTGCA
GT
CA
AT
TG
CG
GC
GG
ATGCGTGGCA
CA
Teorema de Euler
 Diremos
que un grafo es balanceado si la
cantidad de aristas entrantes y salientes
coinciden en cada vértice:
in(v)=out(v)
 Teorema:
Un grafo conexo es Euleriano
si y sólo si es balanceado.
Teorema de Euler: Demostración

Euleriano → Balanceado
El circuito euleriano entra y sale la misma
cantidad de veces en cada vértice. Entonces:
in(v)=out(v)

Balanceado → Euleriano
???
Algoritmo para Construir Circuito
Euleriano
a.
Empezar en un vértice
arbitrario v y formar un
circuito. Por ser el
grafo Eluleriano, este
terminal es
necesariamente el
vértice v.
Algoritmo para Construir Circuito
Euleriano
b. Si el circuito no es
Euleriano, debe
contener un vértice con
aristas no atravesadas.
Repetir el paso (a)
desde tal vértice inicial
w. Terminaremos
nuevamente en w.
Algoritmo para Construir Circuito
Euleriano
c. Combinar los
circuitos obtenidos
de (a) y (b) e iterar.
Teorema de Euler: Extensión
 Teorema:
Un grafo conexo posee camino
Euleriano si y sólo si contiene
exactamente dos vértices no balanceados.
Algunas dificultades con SBH

Fidelidad de Hibridización: dificultad para
detectar diferencias entre hibridizadas con
emparejamientos perfectos y 1 o 2 desajustes.
 Tamaño del Arreglo: se puede lidiar con la
Fidelidad con el tamaño del arreglo. No
obstante, este último está limitado por
cuestiones tecnológicas.
 Practicidad: SBH es aún impráctico. Con
mejoras tecnológicas en la tecnología de
microarreglos, puede practicarse en el futuro.
Secuenciación de ADN
ADN
Mezcla
Fragmentos
Genoma Circular
(bacteria)
+
=
Ubicación
conocida
Diagramas de Electroforesis
Desafíos para leer la respuesta
Secuenciación por Disparo
Segmento genómico
Cortes al azar
(Disparos)
~500 bp
~700 bp
Conseguimos
una o dos
lecturas por
segmento
Problema de Ensamblado
lecturas
Cubrimos la región con redundancia 7
Lecturas de solapamiento permiten reconstruir
más fácilmente la región genómica original.
Redundancia
C
Largo del Segmento genómico: L
Número de lecturas:
Largo de cada lectura:
n
l
Cobertura
C=nl/L
¿Qué cobertura es suficiente?
Modelo de Lander-Waterman:
Bajo hipótesis de distribución uniforme en las lecturas, C=10 resulta en
una falla de lectura cada 1000000 de nucleótidos
Desafíos al Ensamblar
Fragmentos

Repetidas: un GRAN problema de ensamblado de
fragmentos.
 > 50% del genoma humano son repetidos:
- cerca de 1 millón de Alu repetidos
- unas 200000 líneas repetidas
Repetida
Repetida
Repetida
Los fragmentos verdes y azules son intercambiables
cuando se ensambla ADN repetido
Triazzle: Un ejemplo en
miniatura
Suena simple, PERO
¡¡¡Hay repetidas!!!
Las repetidas lo hace
un juego MUY difícil...
Conclusiones
 La
Teoría de Grafos es una herramienta
vital para la resolución de problemas
biológicos.
 Posee una gran gama de aplicaciones
biológicas, que incluye la secuenciación,
reconocimiento de patrones de consenso
local, redes de proteínas y muchas otras.
 Gran cantidad de información genómica
espera ser descifrada.
Referencias

An Introduction to Bioinformatics Algorithms. Neil
C. Jones and Pavel A. Pevzner (2004)
 Simons, Robert W. Advanced Molecular
Genetics Course, UCLA (2002).
http://www.mimg.ucla.edu/bobs/C159/Presentati
ons/Benzer.pdf

Batzoglou, S. Computational Genomics Course,
Stanford University (2004).
http://www.stanford.edu/class/cs262/handouts.ht
ml