DETECCIÓN DE MÓDULOS FUNCIONALES PARALELOS MEDIANTE EL ANÁLISIS COMPARATIVO DE SECUENCIAS DE

Download Report

Transcript DETECCIÓN DE MÓDULOS FUNCIONALES PARALELOS MEDIANTE EL ANÁLISIS COMPARATIVO DE SECUENCIAS DE

DETECCIÓN DE MÓDULOS
FUNCIONALES PARALELOS
MEDIANTE EL ANÁLISIS
COMPARATIVO DE SECUENCIAS DE
GENOMA
Nieves Ábalos Serrano
Mª Teresa Jiménez Ramírez
Miguel Ángel Moreo Fernández
¿Qué es la funcionalidad
paralela?



Los módulos funcionales paralelos son
conjuntos separados de proteínas en un
organismo que catalizan una reacción
bioquímica (la misma o similar) pero actúan
en diferentes sustratos o usan diferentes
cofactores.
Dan versatibilidad y complejidad a los
organismos
Se originan mediante la duplicación genética
durante la evolución.
Origen de la funcionalidad
paralela



Existen organismos que tienen familias de
secuencias de genes parecidas (paralogs). Se
originaron a partir de la duplicación de genes y la
posterior evolución de estos.
Se ha mostrado que el 50% de los genes
procariotas y alrededor del 90% de los genes
eucariotas han sido generados por duplicación
genética.
Este hecho provoca que muchos genes codifiquen
proteínas con algunas funciones parcialmente
redundantes.
Método de detección módulos
funcionalmente paralelos.


Se ha desarrollado un método de cuatro
pasos para descubrir módulos funcionales
paralelos en todo el genoma, a partir de
vínculos funcionales de proteínas.
De diez genomas se identificaron 37
sistemas celulares que consisten en módulos
funcionales paralelos .
Métodos que infieren proteínas
funcionalmente vinculadas.


Varios métodos
computacionales basados
en el contexto genómico
han sido desarrollados para
inferir proteínas vinculadas
funcionalmente.
Método del Perfil
Filogenético: Identifica los
pares de proteínas que coocurren en varios genomas.
Métodos que infieren proteínas
funcionalmente vinculadas.

Método de la Piedra
Roseta: Identifica los
pares observando que
en otro genoma, las
proteínas se
encuentran fusionadas.
Métodos que infieren proteínas
funcionalmente vinculadas.

Método del Gen Vecino:
Identifica los pares de
proteínas que residen cerca
en múltiples genomas.
Métodos que infieren proteínas
funcionalmente vinculadas.

Método del Cluster de
Genes: Identifica pares
de proteínas vinculadas
basándose en
distancias intergénicas
cortas entre genes del
genoma.
Métodos que infieren proteínas
funcionalmente vinculadas.


Ha sido mostrado que el rendimiento de estos
métodos computacionales en la inferencia de
interacciones de proteínas es cuantitativamente
comparable al uso de datos experimentales a
escala genómica.
El método de 4 pasos detecta módulos
funcionalmente paralelos directamente a partir de
secuencias de genoma. Este enfoque puede ser
aplicado a organismos cuyas secuencias de
genoma están disponibles.
Método de 4 pasos

PASO 1: Se aplican los métodos computacionales
anteriores para detectar vínculos entre proteínas
comparando con otros 82 genomas.
La salida de este paso es una descripción binaria
del vínculo entre cada par de proteínas codificadas.
Si las dos proteínas están vinculadas con un nivel
por encima del umbral escogido el vínculo es uno,
en otro caso el vínculo es cero.
Método de 4 pasos

PASO 2: Construimos una matriz de vínculos
funcionales para el genoma a estudiar y agrupamos
las proteínas basándonos en la similaridad de sus
patrones de vínculos funcionales usando un
algoritmo de clustering jerárquico.
Método de 4 pasos.
PASO 2:
Se construye una
matriz simétrica de
vínculos funcionales.
Está compuesta por 0’s
y 1’s (calculados en el
paso 1) representando
la ausencia o presencia
de vínculos funcionales
entre pares de
proteínas.
Método de 4 pasos.
Agrupamos las proteínas basándonos en la
similaridad de sus patrones de vínculos funcionales
usando un algoritmo de clustering jerárquico.
Método de 4 pasos.
PASO 2:



Salida: es una nueva matriz con las filas y columnas reordenadas
donde las proteínas con las mismas funciones celulares o en los
mismos pathways o complejos se meten en el mismo cluster.
La matriz reordenada puede ser visualizada en un mapa que
llamamos “mapa de cluster de vínculos funcionales del genoma”.
El mapa está compuesto mayormente por pequeños clusters de
proteínas altamente vinculadas. Típicamente los clusters se
muestran en la diagonal del mapa arbitrariamente desde la esquina
superior izquierda hasta la esquina inferior derecha de nuestro
mapa debido a la simetría de los vínculos funcionales de la matriz.
Método de 4 pasos.
PASO 3:
Buscamos visualmente clusters en la diagonal del
mapa de vínculos funcionales
Método de 4 pasos.
PASO 3:
 i) un patrón de cluster típico para pathways y
complejos
 ii) un patrón de cluster diagonal para tres módulos
funcionales paralelos cada uno con dos
componentes principales.
 iii) Un patrón de cluster diagonal para dos módulos
funcionales paralelos cada uno con tres
componentes principales
 Nótese que en (ii) y (iii) las proteínas en un
subgrupo están vinculadas a proteínas en otro
subgrupo(s), pero no con otras.
Método de 4 pasos.
PASO 4:
Extracción
manual de
proteínas y sus
vínculos
funcionales
codificados en el
patrón de cluster
de la diagonal
del mapa
Método de 4 pasos.
PASO 4:
Casar patrones de
módulo y borrar vínculos
entre módulos
funcionales paralelos que
aparecen de las
relaciones paralogous
usando relaciones de
localización de genes
(genomas procariotas) o
relaciones de
coevolución (genomas
eucariotas)
Método de 4 pasos.
PASO 4:
Finalmente, se añaden las
proteínas que están
vinculadas a componentes
del módulo pero no están
incluídas en la diagonal
cluster. (Proteínas 2 y 8 en
los círculos sombreados)
produciendo una red de
vínculos funcionales para
los módulos funcionales
paralelos.
Descubrimiento:

Un conjunto dado de módulos funcionales
paralelos debe ser específico para un
organismo dado  Refleja el estilo de vida del
organismo.

Por otro lado, algunos módulos funcionales
paralelos son comunes en muchos organismos.
 Las funciones de estos módulos son
esenciales para sobrevivir.
Estilo de vida de un organismo

Ejemplo: En este análisis, podemos ver que R.Palustris:




Tiene un estilo de vida metabólicamente versátil, es decir, que sobrevive
en diversos entornos.
Transforma el nitrógeno de la atmósfera en NH3.  Nitrogenasas y
enzimas para el uso del nitrógeno.
Usa el CO2 y varios componentes aromáticos como sus fuentes de
carbón.  Enzimas de degradación de componentes aromáticos.
…
Módulos esenciales para
sobrevivir

Ejemplo: en el análisis de genomas eucariotas,
observamos:
 la existencia de Heat Shock proteins (proteínas
chaperonas).
Módulos funcionales paralelos

La identificación de estos módulos puede
ayudar a interpretar la fisiología de un
organismo a partir de sus secuencias de
genoma:

La existencia de módulos para una función dada
 el organismo es versátil en llevar a cabo la función.
 puede sobrevivir mejor en diversos entornos donde
la función es necesitada.
Fisiología

Ejemplo: La bacteria E.Coli K12


Posee 6 transportadores de péptidos (con distinto espectro
y especificaciones de substrato), que son usados como
fuente de carbón y nitrógeno.
Se necesitan para sobrevivir en distintos entornos donde
los nutrientes disponibles son diferentes.
Otros métodos para descubrir
la funcionalidad paralela:

El método de Kelley et al.:


Usa datos de interacción de proteínas
experimentales a gran escala.
Otro, más rudimentario y con limitaciones:



Usa secuencias de genoma, combinando
búsquedas de homólogos y relaciones de
localización de genes.
Necesita conocer los componentes de un módulo
funcional a priori.
Usa el tradicional alineamiento de secuencias.
Características del método de
cuatro pasos (I)

Descubrimiento de módulos funcionales
paralelos en todo el genoma.


Método de descubrimiento guiado, libre de la
necesidad de centrarse en un objetivo
predeterminado.
Usa secuencias de genoma.

Puede ser aplicado a todos los organismos
completamente secuenciados y no está limitado por la
disponibilidad de datos experimentales.
Características del método de
cuatro pasos (II)

Identifica módulos funcionales paralelos
codificados en los genomas pero que no se
expresan bajo las condiciones
experimentales.


Funciones redundantes que sólo se expresan en
condiciones específicas.
Descubre redes de proteínas deducidas.

Simultáneamente, revelando las relaciones
funcionales entre las proteínas dentro de los módulos.
Características del método de
cuatro pasos (III)

Proporciona inferencia de mayor resolución de las
funciones de las proteínas.



Basado en la pertenencia de las proteínas a subgrupos.
Mayor resolución de las que pueden proporcionar los
métodos basados en homología.
Los vínculos funcionales en las proteínas en
eucariotas son deducidos principalmente
basándose en las homologías de las proteínas en
bacterias.