Redes Booleanas

Download Report

Transcript Redes Booleanas

Modelos booleanos
de regulación genética
Extendiendo el paradigma
Redes de regulación
qué es qué
modelos booleanos
atractores, transientes, grafo de transiciones
arabidopsis
kauffman, el applet
otros tipos de redes biológicas
Importancia topología
Motifs, redes complejas
Redes de regulación
A pesar de tener el mismo genoma, las células pueden
ser muy distintas.
hematocitos
neurona
célula muscular
Además, puede estar haciendo cosas distintas en un
momento y en otro.
Redes de regulación
•Lo que distingue la naturaleza y estado de una célula
son las moléculas que contiene.
•En relación al genoma, lo que interesa es qué genes
están siendo expresados, y en qué cantidad.
Cytoplasm
Intracellular
Signaling
Receptors
Ligands
Ion
Channels
Transcription
Factors
cis sites
Genetic
RegulatorymRNA
Network
Translation +
processing
ELECTROPHYSIOLOGY
Nucleus
Extracellular
space
Redes de regulación
Para modelar la relación entre todas esas entidades,
se han propuesto diversos modelos, con distintos:
•Niveles de continuidad (variables binarias,
discretas, continuas)
•Niveles de estocasticidad (deterministas o
probabilistas)
...que a su vez los hacen diferir en
•Realismo
•Cantidad de parámetros (cantidad de datos!)
Así que hay desde redes booleanas hasta ecuaciones
diferenciales parciales estocásticas.
Redes de regulación
En estos modelos las entidades pueden ser:
•Moléculas (proteínas, RNA, etc.)
•Componentes celulares
•Condiciones ambientales
•Reacciones químicas
•Etc.
Redes de regulación
Y las interacciones pueden ser:
•Transformación en una reacción
•Relación catalítica
•Regulación de transcripción
•Regulación de traducción
•Activación / desactivación
•Etc...
Redes de regulación
Redes de regulación
Para entender una célula, habría que entender algo así:
Redes de regulación
Aún estamos muy lejos.
 Los modelos funcionales hoy en día no pasan en
general de una docena de nodos (entidades).
Para hacernos una idea del tipo de comportamiento y
dificultades que aparecen, hablaremos del tipo más
simple de modelo: redes booleanas.
Redes booleanas
Asumimos:
-estados binarios para
las entidades (nodos)
-funciones booleanas
para las relaciones
AND
NAND
NOT
Por lo general también
se asume iteración
paralela (todos los
nodos se actualizan al
mismo tiempo).
Redes booleanas
Ventajas:
•Permiten analizar comportamientos cualitativos
de la red
•Su construcción requiere relativamente pocos
datos.
Desventajas:
•No es cuantitativo
•No puede modelar señales con intensidad variable
•Ergo, no es realista.
•Es difícil incluir el “ruido” (azar) del sistema vivo.
Redes booleanas
Ventajas:
•Permiten analizar comportamientos cualitativos
de la red
•Su construcción requiere relativamente pocos
datos.
Desventajas:
•No es cuantitativo
•No puede modelar señales con intensidad variable
•Ergo, no es realista.
•Es difícil incluir el “ruido” (azar) del sistema vivo.
Redes booleanas
Las redes booleanas son el caso más simple de redes
de autómatas (MEF puestas en un grafo).
Las podemos ver como un digrafo (G,V) con estados
booleanos en los nodos, y funciones de actualización
que dependen de los nodos incidentes.
O como funciones F:{0,1}n{0,1}n.
Modo de iteración: en el caso más simple, es paralelo
(síncrono)  todos los nodos se iteran a la vez, así
que simplemente se aplica F.
Redes booleanas
Como el sistema es finito, siempre caemos en ciclos
de algún largo p (es decir, un punto fijo de Fp).
Y podemos visualizar ciclos y transientes haciendo el
grafo de transiciones del sistema.
f1 = x4
f2 = x4  x3
f3 = x2  x4
f4 = x2  x1  x3
Grafo de transiciones
Grafo de transiciones
Grafo de transiciones
Nota: la cantidad de estados del sistema es 2n
crece exponencialmente con n
Hay una serie de problemas NP duros asociados a la
dinámica.
•Por ejemplo: dada una RB, encontrar un punto fijo.
 NP completo.
Modos de iteración
Aparte de la iteración más simple (paralela,
determinística), se usan varias alternativas.
•Iteración secuencial: iteramos primero el nodo 1,
luego el 2, ..., hasta el n-ésimo, y luego volvemos al
1.
•Iteración por bloques: le asignamos a cada nodo
un bloque de iteración, y ponemos un orden a esos
bloques. Iteramos los bloques uno después de otro,
pero cada bloque se itera en paralelo.
Modos de iteración
Eso agota las opciones determinísticas que iteran
todos los nodos 1 y sólo 1 vez por vuelta.
Alternativas probabilistas:
•Iteración asíncrona: en cada paso escogemos un
nodo al azar y lo iteramos.
•Combinaciones varias.
Modos de iteración
Nota:
•los puntos fijos no dependen del modo de iteración.
Ergo, el cambio en el modo de iteración afecta sólo
los ciclos y transientes del sistema.
En lo que sigue asumiré iteración paralela, salvo que se
indique otra cosa.
Tipos de funciones
Conviene distinguir algunos tipos de funciones
booleanas que aparecen al modelar (y le dan a la red
dinámicas particulares).
•Funciones de umbral: se pueden escribir como
1
f i ( x1 , x2 ,, xn )  
0
w
ji
x j  i
j
si no
donde los wij son pesos y los i son umbrales.
Es el tipo de función que aparece en las redes
neuronales discretas.
Tipos de funciones
Funciones canalizadoras: existe algún
input que, con un valor, determina el
resultado. Si está en el otro valor, no
lo determina.
•Canalizadoras anidadas: existe un orden en los
inputs; uno es canalizador, en su defecto el siguiente
lo es, etc.
En general las funciones canalizadoras aumentan la
estabilidad de la dinámica.
Tipos de funciones
Una red canalizadora anidada
f1 = x4
f2 = x4  x3
f3 = x2  x4
f4 = x2  x1  x3
Tipos de funciones
•Funciones monótonas: fi es monótona en el input j si
se verifica siempre
f i ( x1 ,, x j 1 ,0, x j 1 ,, , xn )  f i ( x1 ,, x j 1 ,1, x j 1 ,, , xn )
o si se verifica siempre la desigualdad contraria
(monótona creciente, o decreciente).
Una red en que todas las funciones son monótonas en
todos sus argumentos tiene la gracia de que se pueden
asociar signos a los arcos: el efecto de un nodo sobre
otro siempre es, ora positivo (+1), ora negativo (-1).
Nota: tanto las funciones de umbral como las
canalizadoras son monótonas.
Tipos de funciones
•Ejemplo de red con funciones monótonas:
f1 = x2
f2 = (x1  x3)
f3 = x1  (x2  x3)
Un circuito de largo L es un camino cerrado en el
grafo: xc(1)xc(2)...xc(L),
(xc(i),xc(i+1))V para todo i, (xc(L),xc(1))V
Así que tiene L nodos, y L arcos. Es simple si no repite
nodos.
Circuitos positivos y negativos
Circuitos simples:
Negativos:
12
132
23
Positivos:
3
Decimos que un circuito es positivo si el producto de
los signos de sus arcos es +1, y negativo en caso
contrario.
Circuitos positivos y negativos
Un circuito representa una acción de un estado sobre
si mismo (feedback loop).
La presencia de circuitos positivos está asociada a la
existencia de atractores múltiples (en un atractor, el
nodo está "bajo" y se refuerza así; en el otro, está
"alto")
"multiestacionaridad"
La presencia de circuitos negativos está asociada a la
estabilidad (si el valor está alto, tiende a bajo, y
viceversa)
 "homeostasis"
Problemas de estudio típicos
Algunos problemas clásicos:
•Analizar la dinámica (atractores, estabilidad, etc.) de
una red dada.
•Estudio estadístico de clases de redes (definidas a
través de su conectividad, topología, tipo de
funciones, etc.)
•Reconstrucción de redes a partir de información
parcial sobre su dinámica (atractores, algunas
interacciones, ...)
Redes booleanas aleatorias
Estudio estadístico clásico: Random
Boolean Networks (RBN), o "redes de
Kauffman".
 Stuart Kauffman, ~1969
Las redes son determinísticas.
 Lo "random" viene de su generación aleatoria, para
estudiar estadísticamente el comportamiento.
Redes booleanas aleatorias
Preguntas (entre otras):
•¿Qué tanta estabilidad sale de la estructura de la red?
•Entender los roles relativos del azar y de la selección
natural en la construcción de las GRN.
Modelo NK:
•N nodos
•K inputs por nodo (desde otros nodos), al azar
•Funciones booleanas escogidas al azar
Para N=8, k=2, ~270 redes distintas (muchas
equivalentes, pero aún así, hartas).
Redes booleanas aleatorias
Encuentra varios tipos de comportamiento:
Orden ( k = 1 )
•La mayoría de los nodos se puede perturbar, sin
modificar el atractor alcanzado.
•Perturbaciones pequeñas provocan cambios pequeños.
•Casi todos los nodos se estabilizan rápido.
•El atractor alcanzado es corto, O(1). La cantidad de
atractores es O(2N).
Redes booleanas aleatorias
Caos ( k  3 ):
•Muy sensible a perturbaciones:
 cambios pequeños se amplifican
exponencialmente.
•Pocos nodos se estabilizan.
•Pocos atractores, pero largos: O(2N)
[recordar que 2N es el tamaño del espacio de
configuraciones, "espacio de fase" para los físicos]
Redes booleanas aleatorias
Pero para k = 2:
•Sensibilidad intermedia a perturbaciones:
 Algunos cambios afectan poco, otros afectan
harto.
•Muchos nodos se estabilizan, pero persisten "zonas de
actividad".
[Si se dibuja la red poniendo cerca los nodos que están
linkeados, lo que se ve son "islas" de actividad dentro de un
"mar" de nodos constantes.]
Redes booleanas aleatorias
Pero para k = 2:
•Ciclos límite no son largos, duran O(n) pasos.
•Cantidad de atractores también escala como O(n).
Hay una reducción efectiva del espacio de fase:
Para n=100, de 2100 configuraciones posibles, el
sistema "escoge" quedarse en ~10 atractores,
de largo ~10  un conjunto de 100
configuraciones!
Redes booleanas aleatorias
k=2 es aprox. el promedio en redes de regulación
genética reales.
Kauffman identifica los atractores con tipos de
células, alcanzados después de la diferenciación
(glóbulos blancos, neuronas, etc.), y el transiente con el
proceso de desarrollo.
Para las cantidades de genes, y la cantidad de tipos de
células, que se estimaban en los 70, cuadraban las
cantidades.
Redes booleanas aleatorias
Más tarde se ha visto que habían problemas:
•La cantidad de tipos celulares estaba sub-estimada.
•La cantidad de genes estaba sobreestimada.
•Hay más formas de regulación (y más compleja) que lo que se
suponía.
•La topología no parece ser aleatoria, y su estructura
específica parece ser relevante para la dinámica. Sobre eso,
volveremos.
Pero de todos modos lo de Kauffman fue una buena
aproximación, y hasta hoy es punto de referencia.
Redes booleanas aleatorias
¿Qué tiene de especial k=2 ?
Un cálculo vía aproximación "mean field" (cosas de
físicos, tomar el promedio de los estados y las
interacciones).
Consideremos dos configuraciones iniciales X e Y que están a
distancia de Hamming D.
•En promedio, cada nodo controla (incide sobre) k nodos.
•En promedio, las nodos que difieren entre X e Y controlan kD
nodos.
Redes booleanas aleatorias
¿Qué tiene de especial k=2 ?
•En cada uno de esos nodos cuya preimagen diferirá entre X e Y,
hay probabilidad ½ de que eso afecte el nuevo valor.
•Por lo tanto en promedio los nodos que diferirán entre F(X) y
F(Y) serán kD/2.
 La distancia entre Ft(X) y Ft(Y) será


t
k
D F ( X ), F (Y )    DX , Y 
2
t
t
Redes booleanas aleatorias
¿Qué tiene de especial k=2 ?


t
k
D F ( X ), F (Y )    DX , Y 
2
t
t
•Para k<2, las órbitas se acercan.
•Para k>2, se alejan exponencialmente.
•k=2 es el valor crítico: la distancia no se mantendrá
constante, pero dependerá de fluctuaciones locales no
capturadas por esta aproximación mean field.
Redes booleanas aleatorias
Nota: sólo se supuso que k era el grado promedio.
Los experimentos confirman esto: basta que la
cantidad promedio de inputs sea k.
Complicando un poco más el modelo:
Supongamos ahora que al escoger la función booleana
al azar, no se toma probabilidad ½ de 1 y 0 en cada
item de la tabla, sino probabilidad p de poner un 1.
En tal caso k=2 ya no es crítico. Un desarrollo un poco
más complicado [ver el apunte de Gross] muestra que
en ese caso
1
kc 
2 p(1  p)
Redes booleanas aleatorias
Los dibujos ilustran la dinámica para distintos regímenes
(horizontal: nodos; vertical hacia arriba: tiempo).
Redes booleanas aleatorias
Derrida y Pomeau (1986) hicieron este análisis, y
mostraron que efectivamente hay un cambio de fase
en la frontera entre el orden y el caos.
[En realidad lo demostraron suponiendo que las funciones se
vuelven a escoger al azar a cada vuelta; sin embargo mostraron
después que para N el comportamiento coincide con el usual
(funciones escogidas sólo al comienzo)].
Redes booleanas aleatorias
¿Por qué k=2 en las redes biológicas? ¿Por qué la vida
escogió (al parecer) el borde del caos?
k>2:
•la dinámica se vuelve inestable: malo para una célula!
 La selección natural lo eliminará.
k<2:
•hay poca flexibilidad
•poco orden, con O(2N) atractores
•además, hay "espacio" para agregar conexiones
 La selección natural hara crecer k.
Redes booleanas aleatorias
El efecto de perturbaciones en la red (N,2) sigue
leyes de potencia:
•muchas con poco efecto (típicamente, entre 80 y 95%)
•unas pocas con grandes efectos.
Es el régimen óptimo para el procesamiento de la
información:
•hay donde guardarla (a diferencia del caso caótico)
•y tiene como propagarse (a diferencia del caso
ordenado, donde perturbaciones pequeñas sólo
provocan cambios pequeños).
Redes de regulación génica
Pero volviendo al caso de los genes: ¿qué tan sencillo
es modelar fenómenos biológicos con RB?
Problemas:
•A veces simplemente no se puede (pero en ese caso
es útil demostrar que no se puede, i.e., mostrar que el
comportamiento del sistema requiere un modelo de
otro tipo).
•Por lo general no se tiene información completa, así
que hay que resolver alguna forma del problema
inverso (RB, dados los atractores, y algunas
interacciones conocidas).
Redes de regulación génica
Ejemplo: cascada
de la caspasa,
generando
apoptosis (muerte
celular).
Típico mono de
paper biológico.
¿Bastará modelar
booleanamente las
interacciones?
Redes de regulación génica
En este caso al
parecer sí: el
modelo
"booleanizado"
permitió predecir
de manera
efectiva el efecto
de dos posibles
medicamentos
para intervenir en
el proceso.
Redes de regulación génica
Otro caso (un modelo "clásico"): formación de la flor
en Arabidopsis thaliana
Cuatro zonas,
concéntricas
correspondientes
a los traslapes de
tres genes
Redes de regulación génica
Fenotipos mutantes
B
A
A
B
C
C
A
A
C
Red de
Mendoza
et al.
B
Redes de regulación génica
•Red booleana, funciones tipo umbral
•Iteración por bloques
Redes de regulación génica
Redes booleanas aleatorias
Cuadraba, pero no predecía todos los fenotipos
experimentales.
A la izquierda, una
red más reciente
para el mismo caso.
No sólo agrega nodos:
además algunos
tienen tres estados.
Se está trabajando
en otra mucho mayor.
La importancia de la topología
Recordemos cómo era la topología que usó Kauffman:
•Cada nodo recibe input desde k nodos, al azar.
•Ergo, el grado de entrada de los
nodos es k, y el de salida es una
binomial con media k. Ó, aproximando,
una Poisson de parámetro k.
•No hay nodos "escogidos", que se salgan mucho de la
norma.
•No hay grupos de nodos que estén especialmente
conectados entre sí. Es "todos con todos".
La importancia de la topología
No es realista. Incluso en 1970 se sabía que:
•Algunos grupos de genes interactúan más entre sí,
que con el resto de lo genes de la célula.
•Algunos genes regulan mucho más que la media
(proteínas que se dedican a regular  "factores de
transcripción).
La duda era: esos rasgos de la topología, ¿influirán en
la dinámica?
No había teoría. Ni modelos alternativos para un
grafo aleatorio.
La importancia de la topología
Veamos un ejemplo para una dinámica bastante simple.
•k = 7.
•Función booleana idéntica en todos los nodos:
•Sea s la suma de los 7 inputs en el tiempo t
•En t+1 paso a 1 si 1  s  6, a 0 si s =0 ó s =7.
•Evalúo, después de cada iteración, la proporción de
nodos que están en 1.
•Los siguientes gráficos son con N=10.000
La importancia de la topología
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
33
31
29
27
25
23
21
19
17
15
13
11
9
7
5
3
1
0
Resultado:
caótico.
De hecho, si hacemos una aproximación mean field se ve que
para r% de 1's en tiempo t, la proporción en t+1 es 1-(1-r)7-r7.
Y se demuestra que la función r1-(1-r)7-r7 es caótica (como
lo era la logística de parámetro 4).
La importancia de la topología
Como la regla es homogénea, podemos
aplicarla como autómata celular. Es decir,
irnos al extremo contrario e imponer una
topología completamente regular.
Ponemos entonces los N nodos en un círculo, y cada
uno recibirá input de sus tres vecinos en cada
dirección (y de sí mismo). La función es la misma.
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
33
31
29
27
25
23
21
19
17
15
13
11
9
7
5
3
1
0
Resultado: orden! [La
fluctuación es un
efecto del tamaño
finito; tiende a
desaparecer con
N].
La importancia de la topología
Son casos extremos, por cierto.
¿Cómo podemos interpolar entre un caso y otro?
•Introducimos un parámetro p en la construcción de la red.
•Asignamos los 7 inputs más cercanos, como en el segundo caso.
•"Repensamos" ahora cada uno de ellos. Con probabilidad p, lo
reasignamos de modo que venga de un nodo escogido al azar.
Con p=1, tenemos el primer caso (grafo aleatorio).
Con p=0, tenemos el segundo (malla regular).
La importancia de la topología
1
0.9
0.8
p = 0.3
0.7
0.6
0.5
0.4
0.3
0.2
0.1
31
33
29
31
29
27
25
23
21
19
17
15
13
11
5
5
9
3
3
7
1
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
27
25
23
21
19
17
15
13
11
9
0
7
p = 0.45
1
0
% de 1's
La importancia de la topología
Diagrama hecho con
N=1.500.000.
p
La importancia de la topología
Moralejas:
•Incluso para funciones muy simples, la topología puede
ser decisiva para la dinámica.
•Hay diferencia entre un grafo aleatorio, y uno en que
haya algún nivel de orden.
•Puede haber sensibilidad dinámica a variaciones
pequeñas en un parámetro que define la topología.
Y eso que el caso que vimos no se metió con otras formas
de modificar la topología; por ejemplo, el modelo siguió
siendo "democrático" (no había nodos especialmente
conectados).
Redes complejas
Redes complejas
•El énfasis pasa
definitivamente a la
topología.
•Incluso sin dinámica (sin “T”)
las características de la
topología son tema de estudio
(no trivial; reciente; hot).