Gen Bank - Centro de Informática da UFPE

Download Report

Transcript Gen Bank - Centro de Informática da UFPE

Universidade Federal de Pernambuco
Centro de Informática
Introdução à Biologia Molecular Computacional (IF803)
 GenBank






Introdução
Entrada
Submissão
Atualização
Acesso
In the news
 NCBI (Site Map)
 DataBases
 Tools
 Education
 Metabolic Pathways
 Referências Bibliográficas
2
GenBank é uma base de dados de sequências genéticas do
National Institute of Health (NIH). Cotem uma coleção de todas as
sequências de DNA publicamente disponíveis. Em junho de 2009 possuia
quase 86 bilhões de bases em quase 83 milhões de registros de
sequências, o que corrobora o seu crescimento exponencial ao longo dos
anos.
 Faz parte da International Nucleotide Sequence DataBase Collaboration;
 Troca dados com o DNA DataBank of Japan (DDBJ) e com o European
Molecular Biology Laboratory (EMBL);
 O GenBank é mantido através de submissões diretas de laboratórios
independentes e centros de sequenciamento em larga-escala.
3
4
Cada entrada contem:
 Descrição da sequência em questão;
 Nome científico e taxonomia do organismo fonte;
 Tabela de características que identifica regiões
codificantes e outros sítios de significância biológica
(unidades de transcrição, sítios de mutação, etc) e
também contem a tradução de proteínas para
regiões codificantes ;
 Referências bibliográficas
5
6
7
8
É possível submeter dados ao GenBank, visto que muitas revistas
científicas requerem esse tipo de procedimento para que possam publicar
algum número de acesso em determinado artigo.
Existem diferentes opções de submissão:
 BankIt: Ferramenta de submissão pela internet;
 Sequin: Software desenvolvido pelo NCBI. Os arquivos de saída devem
ser enviados ao GenBank por email.
9
 tbl2asn: Programa em linha de comando que automatiza a criação de
registros de sequências para submissão ao GenBank. (Genomas
completos, sequências em lote);
 Barcode Submission Tool: Ferramenta de submissão pela internet e
rastreamento de dados para o Barcode of Life Projects.
10
Atualizações podem ser feitas a qualquer momento pelas
pessoas que submeteram algum dado. Sendo necessário o número de
acesso da sequência que se deseja atualizar.
 Através da opção de atualização na página do BankIt;
 Por email;
 Como um arquivo do Sequin.
11
Há diversas maneiras de buscar e recuperar dados do GenBank:
 Busca por identificadores de sequências e comentários pode ser feita
através do Entrez Nucleotide, que é dividido em três segmentos:
CoreNucleotide (conjunto principal), dbEST (rótulos de sequências
expressas) e dbGSS (sequências de pesquisas de genoma);
 Busca e alinhamento utilizando BLAST;
 Buscar, relacionar e fazer download de sequencias usando NCBI eutilities.
12
Na página principal do GenBank são disponibilizadas, também
informações sobre sequências que estão sendo estudadas na atualidade,
geralmente aquelas provenientes de organismos recém descobertos
(vírus ou bactérias com mutações gênicas).
13
14
PubMed
PubMed é um serviço da U.S. National Library of Medicine (NLM)
que inclui mais de 18 milhões de citações da MEDLINE* e outras revistas
científicas relacionadas a artigos biomédicos, além disso, o PubMed inclui
links para diversos artigos da área e outros recursos relacionados.
* MEDLINE é a principal base de dados de bibliografias da NLM que
contem referências para artigos relacionados à ciências biológicas com
concentração em biomedicina.
15
OMIM (Online Mendelian Inheritance in Man)
OMIM é um catálogo de genes humanos e contem informação a
respeito de todas as desordens Mendelianas conhecidas. Ele foca na
relação entre genótipo e fenótipo. É atualizado diariamente e também
contem links para outros recursos genéticos.
 1ª Versão (MIM): versão não online criada em 1960 por Dr. Victor A.
McKusick como um catálogo de traços e desordens mendelianas;
 2ª Versão (OMIM): versão online desenvolvida em 1985 através de uma
colaboração entre duas bibliotecas (NLM e William H. Welch Medical
Library at Johns Hopkins);
 3ª Versão (OMIM): versão online desenvolvida em 1995 pelo National
Center for Biotechnology Information (NCBI).
16
Books (Bookshelf)
Books é uma coleção de livros e outros materiais relacionados a
biomedicina que podem ser localizados através de uma ferramenta online
de busca no website do NCBI. Também inclui livros e bases de dados
produzidos pela NLM e pelo NCBI.
17
18
RefSeq (Reference Sequence)
RefSeq é uma rica coleção de DNA, RNA e sequências de
proteínas
de diversas taxas. Contem sequências de plasmídeos,
organelas, vírus, archaea, bactérias e eucariotos. Cada RefSeq representa
uma simples molécula de um organismo. O principal objetivo desse
projeto é prover uma base de dados que represente informação sobre
sequências gênicas para as espécies.
19
Principais características da RefSeq:
 Não possui redundância;
 Possui ligações explícitas entre nucleotídeos e sequências de
proteínas;
 Atualizações que refletem o atual conhecimento da sequência e a
biologia;
 Validação e consistência dos dados;
 Séries distintas de acesso;
 Revisão continua realizada pela equipe do NCBI.
20
RefSeqs
RefSeqs (RefSeq Biological Sequences) é derivado do GenBank e
cada RefSeq contem síntese das informações ao contrário da RefSeq
“pura”. Outra distinção entre RefSeq e RefSeqs, é que as RefSeqs podem
ser acessadas sem restrições através do NCBI FTP, Entrez ou via BLAST ,
enquanto a RefSeq “pura” representa a consolidação de informação por
um grupo particular.
21
dbEST (Expressed Sequence Tags Database)
dbEST é uma divisão do GenBank que contem dados e outras
informações sobre sequências de DNA complementar (cDNA) ou
”Expressed Sequence Tags” de alguns organismos. Expressed Sequence
Tag é uma sub-sequência pequena do cDNA transcrito. Pode ser usado
na identificação de transcrições gênicas é de singular importância para a
descoberta de genes e determinação de sequências gênicas.
Obs.:
O dbEST é pequeno, visto que contem sequências de DNA produzidas a
partir de RNA mensageiro, por isso geralmente as sequências são
produzidas em lotes.
22
EST é produzido através de uma
sequência de RNA mensageiro
(clonado). A sequência
resultante desse processo
possui qualidade limitada pela
tecnologia atual que consegue
gerar cadeias com tamanho
entre 500 e 800 nucleotídeos,
segundo dados do Wikipedia em
maio de 2009. Após a anotação,
ESTs podem ser mapeados em
cromossomos utilizando mapas
físicos.
23
ESTs podem ser acessados de diversas maneiras:
 Através do NCBI FTP (em formato FASTA);
 Através do sistema Entrez;
 Através do BLAST;
24
dbSNP (Single Nucleotide Polymorphism Database
dbSNP é uma base de dados pública que contem uma vasta
coleção de polimorfismos genéticos simples. Esta coleção inclui
substituições de nucleotídeos single-base (SNPs) e deleções e inserções
multi-base em pequena escala (DIPs). Assim como todos os bancos do
sistema Entrez, o dbSNP aceita submissões . Essas estão relacionadas a
variações em qualquer espécie e de qualquer parte de um determinado
genoma. E também permite acesso por qualquer um dos métodos já
citados.
25
Cada entrada da base de dados contem:
 A sequência contexto do polimorfismo
(os arredores da sequência);
 A frequência de ocorrência do
polimorfismo (populacional ou individual);
 O método experimental utilizado;
 Protocolos e condições usadas para
analisar a variação;
26
RefSeqs
Possui as mesmas características do RefSeq para sequências de
nucleotídeos, porém com foco em sequências protéicas.
27
CDD (Conserved Domain Database)
É uma base de dados de domínios conservados de proteínas.
CDD tenta agrupar domínios relacionados a um descendente comum em
hierarquias familiares. O processo de busca utiliza o algoritmo BLAST. A
cadeia de entrada é comparada a uma matriz de scores de posições
específicas construída com informações de alinhamentos de domínios
conservados. Depois é executado por padrão busca paralela usando o
BLAST para busca em proteínas.
Obs.:
O resultado da busca pode depois ser utilizado pela ferramenta CDART
descrita mais adiante.
28
Protein Clusters
Protein Clusters DB é uma coleção de sequências referências de
proteínas co-relacionadas (clusters) codificadas por genomas completos.
A base de dados contem clusters revisados e não revisados e provê
acesso fácil a informações relevantes, publicações, domínios, estruturas,
links externos e ferramentas de análise que inclui alinhamentos
múltiplos, árvores filogenéticas e vizinhança genômica. Protein Clusters
pode ser acessada da mesma maneira que todas as bases de dados do
sistema Entrez.
29
3D Domains
São domínios de estruturas compactas que podem ser
identificadas automaticamente no MMDB (base de dados de estruturas
tridimensionais). 3D Domains são utilizados como unidades de
comparação para cálculos de estruturas vizinhas utilizando o algoritmo
VAST. É importante conhecer esses domínios, visto que muitas das
funções da proteína estão intimamente ligadas a sua estrutura.
O NCBI possui um visualizador de estruturas 3D conhecido como Cn3D.
30
UniGene (An Organized View of the Transcriptome)
É uma base de dados que contem coleções de sequências
transcritas que tem alta probabilidade de terem surgido de um mesmo
locus de transcrição (gene ou pseudogene expresso), além de conter
informações sobre similaridades entre proteínas, expressões gênicas,
reagentes para clonagem de cDNA e localização gênica. UniGene tem sido
usado para seleção de reagentes para projetos de mapeamento genético
e análise de expressões em larga escala.
31
GEO (Gene Expression Omnibus)
O projeto GEO foi iniciado em 1999 devido ao aumento da
demanda por repositórios públicos de dados gerados através de
experimentos com microarrays. GEO tem um design flexível e aberto que
permite submissões, armazenamento e recuperação de muitos tipos de
coleções de dados, como por exemplo dados obtidos através de altas
taxas de expressão gênica, de hibridização genômica e experimentos
com anticorpos. GEO atua como um ponto central de distribuição de
dados moleculares.
32
Registros da base de dados primária:
 Platform: Define a lista de elementos que podem ser detectados e
quantificados em determinado experimento (cDNA, conjuntos de
oligonucleotídeos investigados,etc). Pode referenciar samples
submetidos por diversos usuários.
A cada registro de plataforma é atribuído um único número de
acesso (GPLxxx).
 Samples: Descreve a condição sobre a qual uma amostra individual
foi manuseada, as manipulações realizadas e as medidas de cada
elemento derivado da amostra.
A cada registro de sample é atribuído um único número de acesso
(GSMxxx).
33
 Series: Registros de séries ligam grupos de samples relacionados e
provê um ponto de foco e descrição do estudo como um todo.
Também pode conter tabelas que descrevem os dados extraídos,
conclusões levantadas ou análises.
A cada registro de série é atribuído um único número de acesso
(GSExxx).
34
Registros primários sofrem um processo de tradução para:
 DataSet: Os curadores do GEO remontam o registro de séries em
DataSets. Um DataSet representa uma coleção de GEO samples
comparáveis biologicamente e estatisticamente. Samples
pertencentes a um DataSet se referem a uma única Platform, isto é,
eles dividem um conjunto comum de elementos.
 Gene Profile: São derivados de DataSets. Um Profile consiste de
medidas de expressão para um gene individual sobre todos Samples
do DataSet.
35
Acesso aos dados:
Dados GEO podem ser acessados utilizando palavras chave através
do Entrez GEO DataSet ou Entrez GEO Profiles ou ainda através do
código de acesso através da homepage do GEO. Dados também
podem ser baixados através de FTP e também podem ser submetidos
e atualizados.
36
A – Descrição da coleção
B – Tabela modelo da coleção
C – Descrição da amostra
biológica
D – Tabela de resultados do
processo de hibridização
E – Arquivo original de dados
F – Descrição geral do
experimento
37
Entrez Taxonomy
É uma base de dados que contem os nomes de todos os
organismos que são representados nos bancos de dados genéticos com
pelo menos um nucleotídeo ou sequência de proteína. É possível buscar
pela estrutura taxonômica ou ainda recuperar dados de um grupo
particular de organismos.
38
Entrez Genome
É uma base de dados que provê visualizações de uma variedade
de genomas, cromossomos completos, mapas de sequências, genética
integrada e mapas físicos. A base de dados é organizada em seis grupos
de organismos: Archaea, Bacteria, Eukaryotae, Viruses, Viroids e
Plasmids.
39
40
Map Viewer
Provê uma enorme variedade de mapeamento de genomas e
seqüenciamento de dados. Permite a visualização dos dados de forma
hierárquica dividida de acordo com a classificação biológica dos
organismos. Dessa forma, é possível recuperar genomas inteiros de
determinado organismo. Além disso, exibe mapas cromossômicos e
permite aproximação progressiva da região de interesse a partir da
sequência de dados. Caso, múltiplos mapas estejam disponíveis para um
cromossomo, o Map Viewer os exibe alinhados baseados nos nomes dos
genes ou em marcadores.
41
42
Cancer Chromossomes
Três bases de dados: NCI/NCBI SKY/M-FISH & CGH Database, a
NCI Mitelman Database of Chromosome Aberrations in Cancer, e a NCI
Recurrent Aberrations in Cancer, são bases de dados integradas ao
sistema Entrez do NCBI como bases de dados de Cancer Chromossomes.
Nessas bases é possível buscar por informação citogenética, clínica e de
referências. O acesso é realizado da mesma forma que em outras bases
do sistema Entrez (através de FTP, BLAST ou da própria homepage).
43
44
Exemplos de busca:
1. Quais cromossomos tem um breakpoint no grupo de cromossomos 9q34?
-> Busca por 9q34
2. Quais casos tem um ganho de 8p23?
-> Busca por +8p23
3. Quais casos tem uma junção (fusão de breakpoints) entre 9q34 e 22q11?
-> Busca por 9q34J22q11
4. Quais casos com 9q34 tem mama associada?
-> Busca por 9q34 AND breast[site]
45
Entrez
É uma poderosa ferramenta de busca que permite usuários
buscarem por dados em diversas bases de dados relacionadas às ciências
biológicas. O sistema é mantido pelo NCBI. Entrez permite acesso a todos
os bancos de dados associados simultaneamente com uma simples string
de entrada. Entrez pode recuperar sequências, estruturas e referências de
maneira eficiente, além de prover visualizações de genes, proteínas e
mapas de cromossomos. Livros e outros materiais literários também
estão disponíveis online através do sistema Entrez.
46
BLAST (Basic Local Alignment Search Tool)
É uma ferramenta para comparação de genes e proteínas em
bases de dados públicas. BLAST é utilizado pelo sistema Entrez para
recuperar os dados buscados.
47
Funcionamento:
 Fragmentação da query em mers;
 Encontra mers similares até um certo limiar (utiliza matriz de
substituição);
 Procura por algumas dessas palavras na base de dados (hits);
 Estende os hits. No BLAST original não permitia gaps e estendia
para ambos os lados. No BLAST atual permite gaps e utiliza uma
matriz de pontos;
48
Funcionamento (continuação):
 Retém somente os pares com scores acima de um limiar (High
Score Pairs);
 Determina estatisticamente a relevância de cada resultado (se
ocorre homologia ou casualidade).
49
CDART (Conserved Domain Architecture Retrieval Tool)
É uma ferramenta utilizada para a busca de proteínas com
domínios conservados, ou seja, com arquiteturas de domínios similares.
CDART utiliza resultados de domínios conservados pré-computados
obtidos a partir de buscas no CDD (descrito anteriormente) para
identificar rapidamente proteínas com um conjunto de domínios similares
ao da cadeia de entrada. O algoritmo encontra similaridades entre
proteínas através de significantes distâncias evolucionárias usando
domínios ao invés da pura similaridade entre sequências.
50
Entrez Programming Utilities
É uma ferramenta que permite o acesso aos dados do sistema
Entrez fora da interface web. Sendo dessa forma, útil para recuperação
de dados em outros ambientes. Usuários podem acessar o sistema Entrez
via Simple Object Access Protocol (SOAP).
51
Regras de acesso para evitar sobrecarga do sistema:
 Scripts de busca para mais de 100 entradas devem ser executados
nos finais de semana ou entre as 21:00 e 05:00;
 Requisições de busca devem ser enviadas por email ao E-utilities;
 Não deve ser realizada mais de 3 buscas por segundo;
 Softwares distribuídos devem conter email do desenvolvedor e
ferramenta utilizada para rastreamento do projeto em caso de
problemas.
52
O NCBI também prove informações educacionais a ligadas as
ciências biológicas. Dentre essas informações o NCBI provê uma vasta
coleção de textos relacionados à determinada doença, bem como a
associação dela com determinados genes. Além disso é discutido as
mutações que causaram desordens genéticas, características clínicas e
links externos. Os artigos podem ser visualizados online ou ainda podem
ser baixados em formato PDF para posterior leitura. Até junho de 2009,
mais de 80 desordens genéticas estavam contidas na coleção, que está
em crescimento contínuo.
53
O NCBI também dispõe de uma série de tutoriais e cursos
relacionados aos recursos oferecidos no portal. Na coleção encontra-se
tutoriais com informações sobre o BLAST, Entrez, PubMed, exercícios
sobre o Map Viewer, estruturas de proteínas, handbook do NCBI, etc.
54
55
Metabolic Pathways é uma série de reações químicas que
ocorrem dentro de uma célula. Em cada pathway (via) uma substância
química é modificada por reações químicas catalisadas por enzimas
específicas. O conjunto de vias é chamado de rede metabólica. Essas vias
são importantes para a manutenção da homeostase dentro de um
organismo. Essas reações químicas permitem que a célula se mantenha
viva, que cresça e possa se dividir.
56
Algumas vias metabólicas humanas:
 Glicose – oxidação da glucose para a obtenção de ATP;
 Ciclo de Krebs- oxidação do acetil-CoA para a obtenção de
energia;
 Fosforilação Oxidativa – Eliminação dos elétrons liberados na
oxidação da glucose e do acetil-CoA;
 Via das Pentoses-Fosfato – Síntese de pentoses e obtenção de
poder redutor para reações anabólicas;
57
Mais importantes vias metabólicas humanas (continuação):
 Ciclo da Uréia – Eliminação de NH4+ sob formas menos tóxicas;
 B-Oxidação dos Ácidos Gordos – Transformação de ácidos gordos
em acetil-CoA;
 Gluconeogenese – Síntese de glucose a partir de moléculas mais
pequenas para serem posteriormente utilizadas pelo cérebro.
58
59
http://www.ncbi.nlm.nih.gov/Genbank/
http://www.psc.edu/general/software/packages/genbank/genbank.php
http://en.wikipedia.org/wiki/GenBank
http://www.ncbi.nlm.nih.gov/Sitemap/index.html
http://www.ncbi.nlm.nih.gov/sites/entrez?db=pubmed
http://www.ncbi.nlm.nih.gov/sites/entrez?db=omim
http://www.ncbi.nlm.nih.gov/sites/entrez?db=books
http://en.wikipedia.org/wiki/PubMed
http://en.wikipedia.org/wiki/OMIM
http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=handbook.chapter.ch18
http://www.ncbi.nlm.nih.gov/dbEST/
http://en.wikipedia.org/wiki/Expressed_sequence_tag
60
http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=handbook.chapter.ch5
http://www.ncbi.nlm.nih.gov/Structure/cdd/cdd.shtml
http://www.ncbi.nlm.nih.gov/sites/entrez?db=proteinclusters
http://www.ncbi.nlm.nih.gov/sites/entrez?db=domains
http://www.ncbi.nlm.nih.gov/sites/entrez?db=unigene
http://www.ncbi.nlm.nih.gov/geo/
http://vivo.library.cornell.edu/lifesci/individual/vivo/individual4898
http://www.ncbi.nlm.nih.gov/projects/geo/info/overview.html
http://www.ncbi.nlm.nih.gov/Taxonomy/taxonomyhome.html/
http://www.ncbi.nlm.nih.gov/Tools/index.html#top
http://www.ncbi.nlm.nih.gov/entrez/query/static/eutils_help.html
http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=gnd&ref=sidebar
61
http://www.ncbi.nlm.nih.gov/Education/index.html
http://www.cin.ufpe.br/~katiag/cursos/20091/slides/Aula17_Combinat
orialPatternMatching.ppt
http://www2.ufp.pt/~pedros/bq/integration.htm
http://en.wikipedia.org/wiki/Metabolic_pathway
62
Universidade Federal de Pernambuco
Centro de Informática
Paulo Ricardo da Silva Soares
Introdução à Biologia Molecular Computacional (IF803)