Anotação de genomas-bacterianos

Download Report

Transcript Anotação de genomas-bacterianos

Genómica

Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013

Sumário

4. Anotação de genomas Anotação e Montagem 4.1 Anotação dos genomas bacterianos 8-04-2013 Genómica 12-13 MJC 2

Genomas Bacterianos

• • • Bastante mais abundantes que os eucariotas: – Preço – Tamanho – Desconhecimento Num único dia podem ser sequenciados vários genomas microbianos. MAS…..

A anotação demora bastante mais.

8-04-2013 Genómica 12-13 MJC 3

Anotação de genomas Microbianos

Sequenciação NGS • Produz os contigs e scaffolds Pipeline automática • Anota os genes possíveis Revisão manual dos resultados • Verifica a anotação automática adicionando mais informação geralmente com base em genomas conhecidos Genómica 12-13 MJC 4 8-04-2013

Informação adicional

• • • Ribosomal binding sites (RBSs) Zonas de término Motivos e Domínios conservados São informações que refinam e retificam a anotação automática de previsão de genes.

Assim a informação dos organismos próximos é muito enriquecida.

8-04-2013 Genómica 12-13 MJC 5

• •

Mais concretamente…

Deve ser próximo UTRs Splicing Alternativo do tamanho médio do gene para essa espécie.

Porquê?

– Assim em média metade dos genes estão contidos num único scafold.

8-04-2013 Genómica 12-13 MJC 6

Processo genético de anotação de genomas bacterianos

© The Author(s) 2012. Published by Oxford University Press.

Que outras características?

Richardson E J , and Watson M Brief Bioinform 2012;bib.bbs007

Que outras características?

• • • • • RBSs? Sequência Shine-Dalgarno Zonas de termino independentes de Rho.

Domínios conservados de proteínas.

HGT (assimetrias em composição dos codões e no conteúdo GC); transposases, integrases e elementos IS (elementos de insersão).

Repetições Clustered Regularly Inter-spaced Short Palindromic Repeats e outras repetições sequenciais.

8-04-2013 Genómica 12-13 MJC 8

Num mundo perfeito….

• A anotação estaria completa e correta. MAS….

– Muita da anotação é baseada em homologia de sequências: • Muitas das anotações existentes estão erradas e esses erros são perpetuados.

– – Inconsistências Erros “ortográficos” – – – O mesmo nome do gene mas produtos genéticos diferentes Proteínas hipotéticas Distinção entre ortólogos e parólogos 8-04-2013 Genómica 12-13 MJC 9

ANOTAÇÕES INCONSISTENTES

8-04-2013 Genómica 12-13 MJC 10

Espécies e estirpes anotadas por grupos diferentes

• • • Principalmente a nível de genes fusionados/separados Identificação de genes funcionais ou pseudogenes.

Nomenclatura dos genes muitas vezes é diferente entre grupos.

8-04-2013 Genómica 12-13 MJC 11

Seis anotações diferentes do locus eutM/eutN de Salmonella.

Richardson E J , and Watson M Brief Bioinform 2012;bib.bbs007

© The Author(s) 2012. Published by Oxford University Press.

Anotação inconsistente em termos dos nomes dos genes em E.coli K12 MG1655 e E. coli 0157:H7 Sakai.

Richardson E J , and Watson M Brief Bioinform 2012;bib.bbs007

© The Author(s) 2012. Published by Oxford University Press.

Escolher os genomas de referência. Usar “média” quando possível e apropriado.

Erros ortográficos?

• 128 proteínas syntase em vez de synthase.

– Trivial? Não, se a procura for com o termo correto há 128 que não aprecem nos resultados.

– Software que use a estratégia “did you mean..” 14 8-04-2013 Genómica 12-13 MJC

Mesmo nome (abreviatura) do gene e

2696 genomas de microrganismos e plasmídeos têm – 23843 genes com pelo menos 2 produtos diferentes: •

diferente proteína

Gene name Product name

O gene tnp tem 151 produtos e o tnpA +97.

int int int int int int

bacteriophage integrase

Accession

NC_003198, NC_004631, NC_015761 Gifsy-1 prophage Int NC_006905 hypothetical protein NC_006905 Integrase NC_003198, NC_004631, NC_006511, NC_012125 integrase (fragment) NC_003198 phage integrase family site specific recombinase putative cytoplasmic protein Putative integrase putative integrase protein NC_006905 NC_006905 • Em salmonella o gene int tem 12 produtos diferentes, alguns “não produtos”.

int Int int int int int

putative P4-type integrase putative phage integrase protein site-specific recombinase, phage integrase family NC_003384 NC_006905 NC_006905 NC_006905 NC_012125 8-04-2013 Genómica 12-13 MJC 15

Proteínas hipotéticas ou previstas

• • • • • “hypothetical protein” = gene previsto pelo software mas para o qual não há homólogos e não tem domínios funcionais. 53035 “uncharacterized protein” = 5178212 Erros de anotação ou proteínas cuja função se desconhece?

Ygenes genes cujo nome provem hipoteticamente da distancia a que está dos genes conhecidos na vizinhança.

Nível de conhecimento que permite a anotação de hipotética deveria ter um peso estatístico.

8-04-2013 Genómica 12-13 MJC 16

Proteínas e domínios desconhecidos

• • • Devem ser eliminados da anotação?

O facto de serem desconhecidos não dá muita informação Mas se um domínio ou proteína desconhecida for muito abundante pode corresponder a domínios conservados. Ou não?

8-04-2013 Genómica 12-13 MJC 17

Distinção entre ortólogos e parólogos Richardson E J , and Watson M Brief Bioinform 2012;bib.bbs007

© The Author(s) 2012. Published by Oxford University Press.

Distinção entre ortólogos e parólogos

• • • Devem ser eliminados da anotação?

O facto de serem desconhecidos não dá muita informação Mas se um domínio ou proteína desconhecida for muito abundante pode corresponder a domínios conservados. Ou não?

8-04-2013 Genómica 12-13 MJC 19

REGRAS DAS BASES DE DADOS DE SEQUÊNCIAS

8-04-2013 Genómica 12-13 MJC 20

Nomenclatura dos CDs

• • • Termos proibidos na nomenclatura das sequências: – Binding, like, domain, motif, gene, homolog As bases a que se submete a anotação muitas vezes têm programas de validação que detetam estes erros e fazem sugestões de correção.

Outras situações que são previstas como erros são: – CDSs com o nome idêntico a um gene imediatamente ao lado.

– Nomes de genes que aparecem mais que uma vez com produtos genéticos diferentes.

– Zonas codificantes dentro de outras. 8-04-2013 Genómica 12-13 MJC 21

FUTURO DA ANOTAÇÃO DE GENOMAS BACTERIANOS

8-04-2013 Genómica 12-13 MJC 22

Melhorias para o futuro

Genomas Gold standard

Melhoramento das regras de submissão para evitar alguns erros e sua propagação:

Qualidade da evidência de previsão

• • •

Previsão automática ou manual Tipo de dados de origem Versão da anotação

Ha genomas com mais dados e portanto podem ser usados com mais confiança:

E.coli, Pseudomonas aeruginosa e Bacillus subtilis

– Proteínas multifuncionais são um problema pois a função muitas vezes não pode ser traduzida num nome. GO são uma boa opção a juntar à anotação.

Genómica 12-13 MJC 8-04-2013 23

Melhorias para o futuro

• •

Melhorias na anotação automática

Embora não seja possível nem desejável eliminar a anotação manual. Há alguns passos que podem ser melhorados na anotação automática:

Deteção de erros ortográficos comuns por exemplo ou inclusão de mais informação disponível ou anotação com os termos GO Novos tipos de dados

– –

Dados de expressão de micro-arrays e RNA-Seq.

Melhorias nos sofwares que permitam a visualização e integração de todos estes dados são fundamentais.

Genómica 12-13 MJC 8-04-2013 24

CONCLUSÕES

8-04-2013 Genómica 12-13 MJC 25

• • • • Avanços em técnicas de sequenciação mas não de anotação Anotação automática é essencial mas ainda está muito aquém da manual e há muita propagação de erros.

Uso da informação adicional tb não é pacífica: o que deve estar anotado e o que deve permanecer em bases separadas?

O uso de anotações GO melhora a descrição das proteínas e reduz erros de sintaxe.

8-04-2013 Genómica 12-13 MJC 26

Referências

“The automatic annotation of bacterial

genomes” artigo na pasta do molar.

8-04-2013 Genómica 12-13 MJC 27