Transcript Anotação de genomas-bacterianos
Genómica
Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013
Sumário
4. Anotação de genomas Anotação e Montagem 4.1 Anotação dos genomas bacterianos 8-04-2013 Genómica 12-13 MJC 2
Genomas Bacterianos
• • • Bastante mais abundantes que os eucariotas: – Preço – Tamanho – Desconhecimento Num único dia podem ser sequenciados vários genomas microbianos. MAS…..
A anotação demora bastante mais.
8-04-2013 Genómica 12-13 MJC 3
Anotação de genomas Microbianos
Sequenciação NGS • Produz os contigs e scaffolds Pipeline automática • Anota os genes possíveis Revisão manual dos resultados • Verifica a anotação automática adicionando mais informação geralmente com base em genomas conhecidos Genómica 12-13 MJC 4 8-04-2013
Informação adicional
• • • Ribosomal binding sites (RBSs) Zonas de término Motivos e Domínios conservados São informações que refinam e retificam a anotação automática de previsão de genes.
Assim a informação dos organismos próximos é muito enriquecida.
8-04-2013 Genómica 12-13 MJC 5
• •
Mais concretamente…
Deve ser próximo UTRs Splicing Alternativo do tamanho médio do gene para essa espécie.
Porquê?
– Assim em média metade dos genes estão contidos num único scafold.
8-04-2013 Genómica 12-13 MJC 6
Processo genético de anotação de genomas bacterianos
© The Author(s) 2012. Published by Oxford University Press.
Que outras características?
Richardson E J , and Watson M Brief Bioinform 2012;bib.bbs007
Que outras características?
• • • • • RBSs? Sequência Shine-Dalgarno Zonas de termino independentes de Rho.
Domínios conservados de proteínas.
HGT (assimetrias em composição dos codões e no conteúdo GC); transposases, integrases e elementos IS (elementos de insersão).
Repetições Clustered Regularly Inter-spaced Short Palindromic Repeats e outras repetições sequenciais.
8-04-2013 Genómica 12-13 MJC 8
Num mundo perfeito….
• A anotação estaria completa e correta. MAS….
– Muita da anotação é baseada em homologia de sequências: • Muitas das anotações existentes estão erradas e esses erros são perpetuados.
– – Inconsistências Erros “ortográficos” – – – O mesmo nome do gene mas produtos genéticos diferentes Proteínas hipotéticas Distinção entre ortólogos e parólogos 8-04-2013 Genómica 12-13 MJC 9
ANOTAÇÕES INCONSISTENTES
8-04-2013 Genómica 12-13 MJC 10
Espécies e estirpes anotadas por grupos diferentes
• • • Principalmente a nível de genes fusionados/separados Identificação de genes funcionais ou pseudogenes.
Nomenclatura dos genes muitas vezes é diferente entre grupos.
8-04-2013 Genómica 12-13 MJC 11
Seis anotações diferentes do locus eutM/eutN de Salmonella.
Richardson E J , and Watson M Brief Bioinform 2012;bib.bbs007
© The Author(s) 2012. Published by Oxford University Press.
Anotação inconsistente em termos dos nomes dos genes em E.coli K12 MG1655 e E. coli 0157:H7 Sakai.
Richardson E J , and Watson M Brief Bioinform 2012;bib.bbs007
© The Author(s) 2012. Published by Oxford University Press.
Escolher os genomas de referência. Usar “média” quando possível e apropriado.
Erros ortográficos?
• 128 proteínas syntase em vez de synthase.
– Trivial? Não, se a procura for com o termo correto há 128 que não aprecem nos resultados.
– Software que use a estratégia “did you mean..” 14 8-04-2013 Genómica 12-13 MJC
•
Mesmo nome (abreviatura) do gene e
2696 genomas de microrganismos e plasmídeos têm – 23843 genes com pelo menos 2 produtos diferentes: •
diferente proteína
Gene name Product name
O gene tnp tem 151 produtos e o tnpA +97.
int int int int int int
bacteriophage integrase
Accession
NC_003198, NC_004631, NC_015761 Gifsy-1 prophage Int NC_006905 hypothetical protein NC_006905 Integrase NC_003198, NC_004631, NC_006511, NC_012125 integrase (fragment) NC_003198 phage integrase family site specific recombinase putative cytoplasmic protein Putative integrase putative integrase protein NC_006905 NC_006905 • Em salmonella o gene int tem 12 produtos diferentes, alguns “não produtos”.
int Int int int int int
putative P4-type integrase putative phage integrase protein site-specific recombinase, phage integrase family NC_003384 NC_006905 NC_006905 NC_006905 NC_012125 8-04-2013 Genómica 12-13 MJC 15
Proteínas hipotéticas ou previstas
• • • • • “hypothetical protein” = gene previsto pelo software mas para o qual não há homólogos e não tem domínios funcionais. 53035 “uncharacterized protein” = 5178212 Erros de anotação ou proteínas cuja função se desconhece?
Ygenes genes cujo nome provem hipoteticamente da distancia a que está dos genes conhecidos na vizinhança.
Nível de conhecimento que permite a anotação de hipotética deveria ter um peso estatístico.
8-04-2013 Genómica 12-13 MJC 16
Proteínas e domínios desconhecidos
• • • Devem ser eliminados da anotação?
O facto de serem desconhecidos não dá muita informação Mas se um domínio ou proteína desconhecida for muito abundante pode corresponder a domínios conservados. Ou não?
8-04-2013 Genómica 12-13 MJC 17
Distinção entre ortólogos e parólogos Richardson E J , and Watson M Brief Bioinform 2012;bib.bbs007
© The Author(s) 2012. Published by Oxford University Press.
Distinção entre ortólogos e parólogos
• • • Devem ser eliminados da anotação?
O facto de serem desconhecidos não dá muita informação Mas se um domínio ou proteína desconhecida for muito abundante pode corresponder a domínios conservados. Ou não?
8-04-2013 Genómica 12-13 MJC 19
REGRAS DAS BASES DE DADOS DE SEQUÊNCIAS
8-04-2013 Genómica 12-13 MJC 20
Nomenclatura dos CDs
• • • Termos proibidos na nomenclatura das sequências: – Binding, like, domain, motif, gene, homolog As bases a que se submete a anotação muitas vezes têm programas de validação que detetam estes erros e fazem sugestões de correção.
Outras situações que são previstas como erros são: – CDSs com o nome idêntico a um gene imediatamente ao lado.
– Nomes de genes que aparecem mais que uma vez com produtos genéticos diferentes.
– Zonas codificantes dentro de outras. 8-04-2013 Genómica 12-13 MJC 21
FUTURO DA ANOTAÇÃO DE GENOMAS BACTERIANOS
8-04-2013 Genómica 12-13 MJC 22
Melhorias para o futuro
•
Genomas Gold standard
–
Melhoramento das regras de submissão para evitar alguns erros e sua propagação:
•
Qualidade da evidência de previsão
• • •
Previsão automática ou manual Tipo de dados de origem Versão da anotação
–
Ha genomas com mais dados e portanto podem ser usados com mais confiança:
•
E.coli, Pseudomonas aeruginosa e Bacillus subtilis
– Proteínas multifuncionais são um problema pois a função muitas vezes não pode ser traduzida num nome. GO são uma boa opção a juntar à anotação.
Genómica 12-13 MJC 8-04-2013 23
Melhorias para o futuro
• •
Melhorias na anotação automática
–
Embora não seja possível nem desejável eliminar a anotação manual. Há alguns passos que podem ser melhorados na anotação automática:
•
Deteção de erros ortográficos comuns por exemplo ou inclusão de mais informação disponível ou anotação com os termos GO Novos tipos de dados
– –
Dados de expressão de micro-arrays e RNA-Seq.
Melhorias nos sofwares que permitam a visualização e integração de todos estes dados são fundamentais.
Genómica 12-13 MJC 8-04-2013 24
CONCLUSÕES
8-04-2013 Genómica 12-13 MJC 25
• • • • Avanços em técnicas de sequenciação mas não de anotação Anotação automática é essencial mas ainda está muito aquém da manual e há muita propagação de erros.
Uso da informação adicional tb não é pacífica: o que deve estar anotado e o que deve permanecer em bases separadas?
O uso de anotações GO melhora a descrição das proteínas e reduz erros de sintaxe.
8-04-2013 Genómica 12-13 MJC 26
Referências
•
“The automatic annotation of bacterial
genomes” artigo na pasta do molar.
8-04-2013 Genómica 12-13 MJC 27