Análise de genomas e transcriptomas
Download
Report
Transcript Análise de genomas e transcriptomas
Análise de genomas e
transcriptomas
Prof. Dr. Francisco Prosdocimi
As novas ciências “ÔMICAS”
•
•
•
•
Genoma
Transcriptoma
Proteoma
Metaboloma
• Fenoma, Lipidoma,
Glicoma, Interactoma,
Spliceoma, Kinoma,
etc.
Genomas e transcriptomas
• O genoma é único
• O transcriptoma modificase espaçotemporalmente
– Quais genes estão ativos
num determinado instante
e condição?
– Como isso influencia a
adaptação da célula ao
meio?
• Proteoma
Montando o “genoma da fábula”
•
Abaixo temos uma Fábula Fabulosa do escritor Millôr Fernandes que foi, assim
como um genoma, dividida em partes. Monte as partes e produza a seqüência
completa da fábula.
> Frase 1
edoria e calor que fazem os seres humanos - "mas eu não". MORAL DA
HISTÓRIA: NÃO MORRE A PASSARADA QUANDO MORRE UM PÁSSARO.
> Frase 2
ela não pôde resistir e exclamou: "Mas, como, seu marido não morreu há cinco
anos?" "Sim, é verdade" - respondeu então a outra, cheia daquela compreensão,
sabed
> Frase 3
Quando a amiga lhe apresentou o garotinho lindo dizendo que era seu filho mais
novo, ela não pôde resistir e exclamou: "Mas, com
> Frase 4
dade" - respondeu então a outra, cheia daquela compreensão, sabedoria e calor
que fazem os seres humanos - "mas eu n
Montagem de genomas
Prof. Dr. Francisco Prosdocimi
Montando um quebra-cabeças
O problema da montagem
• Genomas bacterianos normalmente têm o tamanho
medido em dezenas a centenas de quilobases (kb)
• Genomas eucarióticos têm o genoma medido em
Megabases (Mb) ou gigabases (Gb)
• O genoma humano tem 3,1 Gb
• Através do método de Sanger normalmente produzse sequências de 800bp
• Como montar um genoma?
Montagem de genomas
numa casca de noz
• A abordagem shotgun
• Parte-se o DNA em
pedacinhos
– Corre-se um gel
– Escolhe-se o tamanho dos
fragmentos a trabalhar
• Pedacinhos são clonados em
vetores (montagem da
biblioteca genômica)
• Sequenciamento com primers
do vetor
• Monta-se a sequência por
sobreposição
Montagem da
Biblioteca Genômica
• Fragmentação do DNA
– Enzimas de restrição
– Sonicação
– Calor
• Digestão do vetor
• Ligação para a produção
da molécula recombinante
• Inserção em bactéria
Como sequenciar
o que não se sabe o que é?
• Para sequenciarmos no
método de Sanger,
precisamos utilizar um
primer complementar à
extremidade 5’ do que
desejamos sequenciar
• Vetor de sequenciamento
– Primer Universal
Forward e Reverse
• Sequenciamento do inserto
desconhecido
Análise dos Sequencing Reads
• Leituras do sequenciamento
(cada uma das sequências
produzidas)
• Tipos de Reads que podemos
encontrar
– Vetor + Inserto
– Vetor + Inserto + Vetor
– Vetor
• O vetor não representa nosso
genoma de estudo, portanto,
sua sequência deve ser
mascarada
Possibilidades
(teóricas) de mascaramento
> Sequencia original
ATCTCGAATTCTCTAACAGAACACGTAATATCAGCACCATCTCGAATCTCTAACAGAACACGTAATATCAG
CACCATCTCGAATTCTCTAACAGAACACCATCTCGAATTCTCTAACACACCATCTCGAATTCTCTAACAAA
> Sequencia mascarada (1)
ATCTCGAATTCTCTAACAGAACACGTAATATCAGCACCATCTCGAATCTCTAACAGAACACGTAATATCAG
CACCATCTCGAATTCTCTAACAGAACACCATCTCGAATTCTCTAACACACCATCTCGAATTCTCTAACAAA
> Sequencia mascarada (2)
XXXXXXXXXXXXXXXXXXXAACACGTAATATCAGCACCATCTCGAATCTCTAACAGAACACGTAATATCAG
CACCATCTCGAATTCTCTAACAGAACACCATCTCGAATTCTCTAACACACCATCTCGAATTCTCTAACAAA
> Sequencia mascarada (3)
XXXXXXXXXXXXXXXXXXXAACACGTAATATCAGCACCATCTCGAATCTCTAACAGAACACGTAATATCAG
CACCATCTCGAATTCTCTAACAGAACACCATCTCGAAXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
> Sequencia mascarada (4)
ATCTCGAATTCTCTAACAGAACACGTAATATCAGCACCATCTCGAATCTCTAACAGAACACGTAATATCAG
CACCATCTCGAATTCTCTAACAGAACACCATCTCGAAXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
> Sequencia mascarada (5)
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
Reads limpas
• O programa Cross_match
compara as sequências de
DNA e mascara as
sequências do vetor
• Só temos agora sequência
do organismo que
estudamos
• Alinhamento de
sequências (bioinformática)
• Sobreposição das
sequências
LINUX prompt
$> cross_match reads.fasta vector.fasta
Aligning vector and read sequences
Masking vector regions
$> more reads.fasta.cross_match
> Read1
XXXXXXXXXXACTAGACCCTATGAGGACATACATAGGACACAG
AGATATATCCCGGCGCGTTTCATCTCGTACAGTTACCCCTTCA
GCAGCACTCTCTGCACGATCGTCTACGXXXXXXXXXXXXXXXX
Sequence clustering
• Cálculo da pontuação de sobreposição
– Match / Mismatch / Gap scores
– Minmatch (14) / Minscore (30)
Montagem de contigs
• Reads alinhados
• Programa cria sequências consenso (contigs)
– CAP3, Phrap, TIGR Assembler, Celera Assembler
Problemas de montagem
• E se o genoma contiver muitas
sequências repetitivas?
– O clustering vai reunir partes
do genoma que não são
contíguas
• Análise do conteúdo de
repetições de um genoma
deve ser feito antes da
montagem
• Deve-se mascarar as
repetições e montar apenas as
partes do genoma sem
repetições
Genome Contig
Sequencing reads
Região repetitiva: alta cobertura de reads
Alinhamento com regiões doutras partes do genoma
Reconstrução do genoma
• Contigs + gaps
• Certas regiões do DNA
são difíceis de serem
clonadas
– Clonagem de fragmentos
é estatística
• Não estão presentes na
biblioteca de DNA
• Portanto, não são
sequenciadas
Genome finishing
• Primer walking consiste
numa técnica de
fechamento de genomas
– Primers são criados para a
realização de uma PCR
que produzirá a sequência
dos gaps
• E se a sequência for
muito grande?
• Grande parte dos
genomas publicados
contêm regiões de gap
Genomas eucarióticos
• Genomas enormes, nível
de Mb ou Gb
• Por vezes decide-se
realizar uma abordagem
hierárquica para o
sequenciamento
• Montagem de BACs –
BAC to BAC sequencing
Mated-pair sequencing
•
•
•
•
Não se sequencia o inserto inteiro
Sequenciamento das extremidades do inserto
Montagem das sequências das extremidades
Clonagem de insertos com tamanhos variados
(em diferentes tipos de vetores)
Gaps reais e virtuais
• Gaps virtuais
– Conhece-se o vetor que
contém os mated-pairs
– Sabe-se o tamanho ao
qual ele corresponde
(tamanho do inserto)
– Shotgun do vetor em
questão
• Gaps reais
– Não se conhece nada
sobre este gap
– Pode ter qualquer tamanho
– Difícil solução
Genome coverage
• Cobertura do genoma
• Antes de tentarmos montar
um genoma, precisamos ter
uma quantidade de bases
cerca de 8x maior do que o
genoma
– Garante que haverão poucos
gaps reais
• Genoma Humano público
(2001): 2,9X coverage
• Celera: 5,1X coverage
Quanto maior a cobertura, menor o
número de contigs (significando que as
moléculas foram montadas por completo)
Passos para a montagem
• Produção de sequencing
reads até 8x o tamanho
do genoma
• Montagem dos contigs
• Identificação de gaps
reais e virtuais
• Fechamento de gaps
• Publicação do genoma
Montagem de
transcriptomas
Prof. Dr. Francisco Prosdocimi
Genoma X Transcriptoma
Sequenciando ESTs
• Expressed Sequence Tags
– Etiquetas de sequências
expressas
• Amplificação dos genes a partir
de primers do vetor de clonagem
– Pode-se produzir ESTs 3’ ou 5’
– A EST 3’ está ancorada ao poli-A
• O conteúdo da extremidade 5’ da
EST, no entanto, varia devido:
– Tamanho do mRNA
– Tamanho do inserto clonado
– Tamanho amplificado pela
transcriptase reversa
– Formas de Splicing do gene
Características das ESTs
Representam o pool de mRNAs
Possuem de 150 a ~1000 nucleotídeos
Etiquetas de seqüências gênicas
Cada clone é seqüenciado uma única vez
Apresentam redundância
Permitem a identificação dos genes mais
expressos em diferentes fases/tecidos
Permitem a identificação de splicing
alternativo
Montagem dos genes
• Contigs
– Cada contig representa um
gene completo
• A cobertura do contig depende
da expressão de cada gene
– Genes muito expressos são
mais vistos
• Genes singlets
– Menor evidência
• Quantidade de ESTs
sequenciadas e saturação da
biblioteca
• Sequências únicas
– Cada uma é um gene
• Sequências quiméricas
:. Diminui a redundância;
:. Aumenta o tamanho;
:. Aumenta a qualidade.
Sequence clustering
• Cálculo da pontuação de sobreposição
– Match / Mismatch / Gap scores
– Minmatch (14) / Minscore (30)
Déja
vu?
Produção de ESTs e
ORESTEs
Seqüênciamento de genes expressos:
Documentar a existência de transcritos gênicos
num transcriptoma [otorrin... e ...damonh...]
• EST (Etiqueta de Seqüência Expressa)
– seqüenciamento único de cada cDNA
– extremidades 5’ ou 3’
• ORESTES (ESTs ricas em ORFs)
– seqüenciamento único do amplicon derivado de
cDNA por PCR inespecífico
– prevalece o centro do cDNA (cds)
Um mRNA & suas ESTs
AUG
ATG
cDNA (fita +)
ATCATGACTTACGGGCGCGCGAT
cDNA (fita -)
AUG
(A)20
(A)
18
0(T)18
cDNA (fita +)
GGCGCGCGATATCC
cDNA (fita -)
(A)20
(A)
18
0(T)18
PCR inespecífico & seu
ORESTES
AUG
ampliconGGGCGCGCGATATCGAAAAATTTATAAGGCTAG
(fita +)
CCCCGGCGGCTCGGCCGGGGAGATCGATCATGAC
AGATCGATCATGACTTACGGGCGCGCGATATCG
amplicon
cDNA (fita -)
Iniciador
PCR
(60ºC(60ºC)37ºC)
(A)200
Produção de ESTs e
ORESTEs
Epílogo
• Sabemos agora montar os genomas e os transcriptomas
• E daí?
• Número de genes (introns e éxons), elementos
regulatórios, tamanho em pares de bases
• Fizemos uma análise quantitativa e partiremos agora
para uma análise qualitativa dos genes presentes
– Quais são? O que fazem?
– O que um organismo pode fazer dado que tem os genes que
tem?
• A análise genômica é uma análise de como pode
funcionar o metabolismo de um organismo
Outras análises
transcriptômicas
Prof. Dr. Francisco Prosdocimi
SAGE
• Serial Analysis of gene
expression
• Utilização de enzima de
restrição do tipo III (corta
upstream ao sítio de
reconhecimento) (NlaIII)
• Produção e sequenciamento de
concatâmeros
Bioinformática SAGE
•
•
•
•
Extração e contagem das tags
Algus transcritos não geram tags com certa enzima
Tags possuem 10bp ou 17bp (+4 restr. Site)
Mapeamento de tags a genes usando alinhamento de
sequências (1 to N, N to 1)
– Tags não unívocas; repeat regions
• Erros de sequenciamento atrapalham a análise
>SAGE-WT1-A0001-A01.abd 1047 ABI
GGCAGTGAATTGTAATACGACTCACTATAGGGC
GAATTGGGCCCTCTAATGCATGTTGACGTGCAC
TTCCGTAGCCTCATGTTTTATGGAATCACCTAT
TATGCCATGACTTTTTCAAAACTAGGCTGTGCC
ATGTTTACACAGTATGCACACATCTTCCATGGA
TGTGGACAGAAAATCCTCCAACATGATGGCAA
A tag em azul deverá ser a o
complemento reverso da sequência.
Short SAGE:
Tag
GCAGACCATA
AACAGTTCCA
GCCAACTCGG
CGTGCGGATT
Freq
1451
931
2
1
MappedGenes
AB666788, U18897
NM_789654
NM_123587
NM_123587,
Y15324, P67473,
MB12983
Microarray
• Análise comparativa da expressão gênica em
high-throughput