Slides - Ufabc

Download Report

Transcript Slides - Ufabc

Inferência de redes gênicas por
métodos de seleção de características
David Correa Martins Jr
Centro de Matemática, Computação e Cognição
Universidade Federal do ABC (UFABC)
[email protected]
Sumário
• Processos celulares (systems biology) 
redes de regulação gênica (GRN)
• Motivação para pesquisas em inferência
de GRNs
• Conceitos básicos de GRN
• Inferência de GRN por seleção de
características
• Pesquisas em andamento
Célula
Proteínas
Vias metabólicas
Núcleo
Tradução
DNA
mRNA
Transcrição
Transporte
• Sequenciamento
em larga escala (high throughput sequencing)
•Arrays de expressão gênica (1995)
Microarray
Motivação
• Controle celular: resultado de atividade
multivariada entre genes
• Modelagem de interação multivariada para
propósitos terapêuticos e criação de novas
drogas
• Inferência de parâmetros de uma rede
regulatória a partir de dados experimentais é um
dos grandes desafios da bioinformática
Motivação
• Conhecer leis gerais sobre essas redes
• Identificar grupos de genes associados a
determinadas características bioquímicas
• Investigar a possibilidade de controlar suas
dinâmicas e qual a melhor maneira (mais
prática, menos custosa, etc) de fazer isso
Motivação – Systems Biology
• Área interdisciplinar que estuda a rede complexa de
interações que ocorrem em sistemas biológicos
– Desenvolvimento de modelos e abordagens para desvendar
propriedades emergentes de células, tecidos e órgãos, que
funcionam como um sistema integrado
– Tipicamente envolve
• estudos de regulação gênica, metabólica e de redes de
sinalização celular
• integração e análise de massivos conjuntos de dados
complexos e heterogêneos
– Big Data
• diversas plataformas (“ômicas”)
– genômica, transcriptômica, proteômica, metabolômica,
epigenômica, interferômica, glicômica, lipdômica, interatômica,
fluxômica, biômica, semiômica, etceterômica...
Redes de regulação gênica
• Redes de regulação gênica (Gene Regulatory
Networks – GRN)
– Podem ser vistos como redes de interação gênica
nas quais o nível de expressão de um gene é
controlado pelos níveis de expressão de outros
genes
– Sinal de expressão gênica: quantidade de mRNA
transcrito
• Principais tecnologias de medição de expressão gênica:
microarrays, SAGE, RNASeq
Motivação
• Desafios:
– Poucas observações (dezenas) para muitas
variáveis (milhares)
• Situação desejável: Muitas observações (milhares) para
poucas variáveis (dezenas)
– Natureza dos dados
• Tecnologias de extração de mRNAs consistem de um
pipeline envolvendo diversas etapas
– introdução de ruidos ao longo do processo
Microarray: formato dos dados
Gene1
Gene2
Gene3
Gene4
Gene5
.
.
.
GeneN
Exp1
3.45
2.05
0.28
4.11
2.44
Exp2
1.12
4.77
1.44
0.76
0.43
Exp3
0.24
0.54
5.33
1.56
1.15
.
.
.
3.70 0.29 0.85
Exp4
0.67
2.14
0.19
3.14
0.97
...
...
...
...
...
...
ExpM
1.98
3.66
6.64
0.38
0.88
1.78 ... 1.24
M <<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<< N
Motivação
• Desafios:
– Poucas observações (dezenas) para muitas
variáveis (milhares)
• Situação desejável: Muitas observações (milhares) para
poucas variáveis (dezenas)
– Natureza dos dados
• Tecnologias de extração de mRNAs consistem de um
pipeline envolvendo diversas etapas
– introdução de ruidos ao longo do processo
• Como lidar com esses problemas?
GRN: conceitos básicos
• GRNs podem ser visualizados como um grafo
– vértices: genes
– arestas: dependências entre os genes
• definem a relação topológica da rede
[Hecker et al, 2009]
GRN: conceitos básicos
• Estado da rede
– Vetor contendo os valores de expressão dos genes
– Ex: [0.75 1.78 2.42 0.94 0.51]
• X1 = 0.75, X2 = 1.78, X3 = 2.42, X4 = 0.94, X5 = 0.51
• Experimento de microarray corresponde a um
estado do sistema
Microarray: formato dos dados
Gene1
Gene2
Gene3
Gene4
Gene5
.
.
.
GeneN
Exp1
3.45
2.05
0.28
4.11
2.44
Exp2
1.12
4.77
1.44
0.76
0.43
Exp3
0.24
0.54
5.33
1.56
1.15
.
.
.
3.70 0.29 0.85
Exp4
0.67
2.14
0.19
3.14
0.97
...
...
...
...
...
...
ExpM
1.98
3.66
6.64
0.38
0.88
1.78 ... 1.24
1 estado
Sabemos que o sistema esteve nesses M estados
GRN: conceitos básicos
• Número de estados possíveis
– Infinitos, se levarmos em conta que genes possuem
valores reais
– Pode-se tornar finito o número de estados possíveis
tornando os valores de expressão finitos
(quantização ou discretização)
– Ex: [0.75 1.78 2.42 0.94 0.51] => [0 1 1 0 0]
subexpresso (Xi < 1 => Xi = 0)
superexpresso (Xi > 1 => Xi = 1)
– (Número de valores possíveis)N
• Caso binário: 2N
• Caso ternário: 3N
Microarray: formato dos dados
Gene1
Gene2
Gene3
Gene4
Gene5
.
.
.
GeneN
Exp1 Exp2 Exp3 Exp4 ... ExpM
1
1
0
0 ...
1
1
1
0
1 ...
1
0
1
1
1 ...
1
1
0
1
1 ...
0
1
0
1
0 ...
0
.
.
.
1
0
0
1 ...
1
1 estado
Dados binarizados
GRN: conceitos básicos
• Número de estados possíveis
– O genoma humano tem em torno de N = 30000
• 230000
GRN: conceitos básicos
• Número de estados possíveis
– O genoma humano tem em torno de N = 30000
• 230000
– Felizmente, o grau de entrada de cada gene (de
quantos genes um determinado gene depende)
costuma ser bem pequeno (média entre 2 e 3)
• 23 = 8 (OK!)
GRN: conceitos básicos
• Número de estados possíveis
– O genoma humano tem em torno de N = 30000
• 230000
– Felizmente, o grau de entrada de cada gene (de
quantos genes um determinado gene depende)
costuma ser bem pequeno (média entre 2 e 3)
• 23 = 8 (OK!)
– Inferência de dependências é possível!
– Mas o que significa “um gene depender de
outros”?
Inferência de GRNs
• Dependência entre genes
– Depende.... São redes estáticas ou dinâmicas?
• Redes estáticas
– Não há informação da dinâmica (temporal)
– Dependências estáticas (co-regulação)
• Redes dinâmicas
– Informação temporal
– Dependências no tempo (predição / causa e efeito)
– Função de transição de estados
Inferência de GRNs
• Como medir o grau de dependência de um gene
em relação aos outros?
• Seleção de características
– Dado um gene alvo, define-se um algoritmo de
seleção de características (algoritmo de busca) que
tenta obter o subconjunto de genes mais relevantes
para descrever o seu comportamento
– Critério de relevância
– Exemplos de funções critérios: informação mútua
(baseada em entropia) e coeficiente de determinação
(baseado no erro Bayesiano)
Inferência de GRNs
• Processo de seleção de características
– Entrada: matriz de expressões gênicas, índice do
gene alvo e critério de relevância
– Para cada subconjunto de genes considerado:
• preenche-se uma tabela de probabilidades conjuntas
• um valor de relevância é atribuído pelo critério com base
nessa tabela a esse subconjunto
– Saída: subconjuntos de genes candidatos ordenados
pelo critério de relevância
-1 0 1
1
g1
g2
g3
g4
g5
4
5
...
...
...
...
...
...
M-1 M
g target
g1 g2 -1 0 1
...
...
target
3
...
...
...
...
...
g
2
-1 -1
-1 0
-1 1
0 -1
0 0
0 1
1 -1
1 0
1 1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
-1 0 1
1
g1
g2
g3
g4
g5
4
5
...
...
...
...
...
...
M-1 M
g target
g1 g2 -1 0 1
...
...
target
3
...
...
...
...
...
g
2
-1 -1
-1 0
-1 1
0 -1
0 0
0 1
1 -1
1 0
1 1
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
1
0
0
0
0
0
0
0
0
-1 0 1
1
g1
g2
g3
g4
g5
4
5
...
...
...
...
...
...
M-1 M
g target
g1 g2 -1 0 1
...
...
target
3
...
...
...
...
...
g
2
-1 -1
-1 0
-1 1
0 -1
0 0
0 1
1 -1
1 0
1 1
0
0
0
0
1
0
0
0
0
0
0
0
1
0
0
0
0
0
1
0
0
0
0
0
0
0
0
-1 0 1
1
g1
g2
g3
g4
g5
4
5
...
...
...
...
...
...
M-1 M
g target
g1 g2 -1 0 1
...
...
target
3
...
...
...
...
...
g
2
-1 -1
-1 0
-1 1
0 -1
0 0
0 1
1 -1
1 0
1 1
0
0
0
0
1
0
0
0
0
0
0
0
1
0
0
0
0
1
1
0
0
0
0
0
0
0
0
-1 0 1
1
g1
g2
g3
g4
g5
4
5
...
...
...
...
...
...
M-1 M
g target
g1 g2 -1 0 1
...
...
target
3
...
...
...
...
...
g
2
-1 -1
-1 0
-1 1
0 -1
0 0
0 1
1 -1
1 0
1 1
0
7
0
0
5
0
0
0
8
0
0
4
9
0
0
0
0
0
6
0
0
0
0
1
7
0
0
-1 0 1
1
g1
g2
g3
g4
g5
4
5
...
...
...
...
...
...
M-1 M
g target
g1 g2 -1 0 1
...
...
target
3
...
...
...
...
...
g
2
-1 -1
-1 0
-1 1
0 -1
0 0
0 1
1 -1
1 0
1 1
0
7
0
0
5
0
0
0
8
1
0
4
9
0
0
0
0
0
6
0
0
0
0
1
7
0
0
g alvo
g alvo
g1 g2 -1 0 1
-1 -1
-1 0
-1 1
0 -1
0 0
0 1
1 -1
1 0
1 1
0
7
0
0
5
0
0
0
8
1
0
4
9
0
0
0
0
0
6
0
0
0
0
1
7
0
0
Características do par (g1,g2)
Informação mútua / CoD altos
●
Predição quase perfeita
●
Forte candidata a ser classificada entre
os melhores pares (g1 e g2 poderão ser
conectados ao gene alvo)
●
g3 g5 -1 0 1
-1 -1
-1 0
-1 1
0 -1
0 0
0 1
1 -1
1 0
1 1
2
3
0
2
1
1
2
1
4
2
2
3
4
1
0
3
1
2
2
2
1
3
2
1
1
0
2
Características do par (g3,g5)
Informação mútua / CoD baixos
●
Predição muito ruim
●
Descartado
●
Inferência de GRNs
• Uma vez que temos o melhor subconjunto de
genes preditores (ou co-reguladores) para cada
gene, temos toda a informação topológica da
rede
• Porém, topologia não é tudo
• Também precisamos saber como são essas
relações
• Tal informação está presente nas tabelas de
probabilidades conjuntas
Inferência de GRNs
• Exemplo: considere as variáveis binárias X1,
X2, X3, sendo que X3 depende de X1 e X2
X1
X2
X3
• Várias possibilidades de regras lógicas:
– X3 = X1 AND X2
– X3 = X1 OR X2
– X3 = X1 NAND X2
– ............
Existem 24 = 16 lógicas
possíveis para o caso com 2
preditores binários
Inferência de GRNs
• Como obter as lógicas (ou regras de regulação)
a partir das tabelas de probabilidades
conjuntas?
g1 g2
0
0
1
1
0
1
0
1
g alvo
0
6
4
5
2
1
0
3
1
8
0
0
0
1
AND
Resposta: obtendo o valor do alvo cuja probabilidade é máxima
para cada linha (argmax)
Inferência de GRNs
• Obtendo a topologia e as regras das
dependências, temos tudo!
• Em especial, se tivermos a topologia e as regras
de predição em um sistemas dinâmico, temos
sua função de transição completa
• X[t+1] = f(X[t])
• Podemos determinar suas trajetórias, bacias de
atração, atratores...
Bacias de atração, atratores e estados transientes
Bacias de atração
001
111
011
110
010
100
000
101
Estados transientes
Exemplo para
um sistema de 3 genes
Atratores
Estados atratores
Principal bacia de atração
de um sistema regulatório
de 11 genes responsáveis
pelo controle do
ciclo celular da Levedura
(Saccharomyces cerevisiae)
(1786 estados de um total de 2048)
F. Li, T. Long, Y. Lu, Q. Ouyang and C. Tang
The yeast cell cycle is robustly designed.
PNAS 101(14):4781-6, 2004
Inferência de GRNs
• Obtendo a topologia e as regras das
dependências, temos tudo!
• Em especial, se tivermos a topologia e as regras
de predição em um sistemas dinâmico, temos
sua função de transição completa
• X[t+1] = f(X[t])
• Podemos determinar suas trajetórias, bacias de
atração, atratores...
• Mas com poucas amostras, há erros de
estimação
Inferência de GRNs
g alvo
g1 g2 -1 0 1
-1 -1
-1 0
-1 1
0 -1
0 0
0 1
1 -1
1 0
1 1
0
7
0
0
5
0
0
0
8
1
0
4
9
0
0
0
0
0
6
0
0
0
0
1
7
0
0
(g1,g2) = (1,0) não foi observado!
E agora? Essa instância não aparece porque de fato o sistema
é assim ou por causa do número pequeno de observações?
Pesquisas em andamento
• Como inferir “hubs” a partir de poucas
amostras? (e como decidir o grau de entrada
dele?)
– Hub: gene com alto grau de entrada
grau 8
– Em sistemas binários, um gene com grau 8 terá uma
tabela com 28 = 256 linhas
– Se tivermos 30 amostras, pelo menos 226 dessas
linhas não serão observadas (princípio da casa dos
pombos)
Pesquisas em andamento
• Em particular, inferência de hubs é importante
para inferência de redes “livres de escala”
(scale-free)
– Poucos nós com alto grau de entrada
– Muitos nós com baixo grau de entrada
Pesquisas em andamento
• Exemplo de uma rede metabólica livre de escala
– vértices = metabólitos, arestas = reações químicas
Pesquisas em andamento
• Inferência de redes “mundo pequeno” (smallworld)
– Probabilidade alta de haver transitividade
• Se o vértice X1 está ligado a X2, e X2 está ligado a X3,
então X1 está ligado a X3
– Alto número de triângulos
– Tendência de formar agrupamentos ou módulos
(clusters)
X2
X1
X3
alta probabilidade
Pesquisas em andamento
• Exemplo de rede “mundo pequeno”
Pesquisas em andamento
• Inferir a dinâmica do sistema a partir de dados
estáticos (temos apenas a probabilidade de
ocorrência de cada estado)
– Dados temporais permitem tanto análise de predição
como de co-regulação
– Porém, dados estáticos só permitem análise de coregulação a princípio
Pesquisas em andamento
• Inferir a dinâmica do sistema a partir de dados
estáticos (temos apenas a probabilidade de
ocorrência de cada estado)
– Inferir um sistema dinâmico a partir das
probabilidades de cada estado é um problema malposto
– Existem infinitas possibilidades de sistemas que
convergem para tais probabilidades
– Como descobrir o sistema verdadeiro?
– Poderíamos restringir o espaço das soluções com
base em conhecimento a priori sobre o
comportamento de sistemas biológicos?
Pesquisas em andamento
• Inferir a dinâmica do sistema a partir de dados
dinâmicos (temporais)
– Infelizmente não é tão simples quanto parece
– Número de amostras geralmente muito pequeno
(erros de estimação)
– Qual é a resolução temporal apropriada? Hora em
hora? Minuto a minuto? 15 em 15 minutos?
– Os dados podem representar apenas uma possível
trajetória do sistema dentre as inúmeras possíveis
Pesquisas em andamento
• Qual seria o papel dos genes de predição
intrinsecamente multivariada em redes de
regulação gênica?
Pesquisas em andamento
• Validação dos resultados de inferência de GRN
– “Wet lab” (bancada)
• Custoso tanto em termos financeiros como de demanda de
tempo
– “In silico”
• Através de simulações a partir de um modelo específico prédeterminado
• Bancos de dados biológicos (aproveitando o esforço de “wet
lab” de pesquisadores ao redor do mundo): Gene Ontology,
KEGG, NCBI, etc...
• Como integrar dados de diversas naturezas para aumentar o
poder de estimação dos métodos de inferência?
Referências
•
BARRERA, Junior ; CESAR JR, Roberto Marcondes ; MARTINS JR, David
Corrêa ; VÊNCIO, Ricardo Z. N. ; MERINO, E. F. ; YAMAMOTO, Marcelo
M. ; LEONARDI, Florência G. ; PEREIRA, Carlos Alberto de Bragança ;
PORTILLO, Hernando A. . Constructing probabilistic genetic networks of
Plasmodium falciparum from dynamical expression signals of the
intraerythrocytic development cycle. Methods of Microarray Data Analysis V.
: Springer US, p. 11-26, 2007.
•
Lopes, Fabricio M. ; Martins Jr, David C. ; Cesar, Roberto M. . Feature
selection environment for genomic applications. BMC Bioinformatics , v. 9,
p. 451, 2008.
•
Martins Jr, David C. ; Braga-Neto, Ulisses M.; HASHIMOTO, Ronaldo F. ;
Bittner, Michael L. ; Dougherty, Edward R. . Intrinsically Multivariate
Predictive Genes. IEEE Journal of Selected Topics in Signal Processing , v.
2, p. 424-439, 2008.
•
[Hecker, 2009] Hecker, M.; Lambeck, S.; Toepfer, S.; van-Someren, E.;
Guthke, R. Gene regulatory network inference: data integration in dynamic
models-a review. Biosystems, 96(1):86-103, 2009.
Referências
•
F. F. Borelli ; R. Y. Camargo ; Martins-Jr, David C. ; L. C. S. Rozante .
Gene regulatory networks inference using a multi-GPU exhaustive search
algorithm. BMC Bioinformatics , v. 14, p. S5, 2013.
•
Martins Jr, David C. ; DE OLIVEIRA, EVALDO A. ; Braga-Neto, Ulisses M.
; HASHIMOTO, Ronaldo F. ; Cesar, Roberto M. . Signal propagation in
Bayesian networks and its relationship with intrinsically multivariate
predictive variables. Information Sciences , v. 225, p. 18-34, 2013.
•
LOPES, Fabrício Martins ; MARTINS-JR, DAVID CORREA ; BARRERA,
Junior ; CESAR JR, Roberto Marcondes . A feature selection technique for
inference of graphs from their known topological properties: revealing scalefree gene regulatory networks. Information Sciences , v. online, p. online,
2014.
Conclusão
Redes de regulação gênica: um montão
de problemas e desafios interessantes