Transcript RNAseq
Disciplina BMP 5762 – Bioinformática Aplicada ao Estudo de Doenças Parasitárias
RNA-SEQ: CONCEITO E APLICAÇÕES
Ana da Rocha Kurata Katie Cristina Takeuti Riciluca
RNA-seq
• RNA seq é uma abordagem recentemente desenvolvida, para analisar o perfil de transcriptoma, que utiliza tecnologias de
deep-sequencing
.
• O transcriptoma é o conjunto completo de transcritos (RNAs) em uma célula, e sua quantidade, para um estágio de desenvolvimento específico ou condição fisiológica.
• *
deep-sequencing
= indica que a cobertura do processo é muito maior que o comprimento da sequencia em estudo.
• O entendimento do transcriptoma é essencial para: • Interpretar os elementos funcionais do genoma • Revelar os constituintes moleculares de células e tecidos nos diferentes estágios de desenvolvimento • Compreender os elementos presentes no desenvolvimento de doenças • O transcriptoma pretende catalogar todos os tipos de transcritos: • • mRNAs RNAs não codificadores • pequenos RNAs.
Porquê estudar o transcriptoma?
• • • • • Para determinar a estrutura transcripcional dos genes, em termos de seus sítios de início 5’ e final 3’; Padrões de traducionais;
splicing
e outras modificações pós Quantificar os níveis de mudanças de expressão de cada transcrito durante o desenvolvimento e sob condições diferentes.
Encontrar microRNAs que possuem função reguladora Metagenômica *
Splicing
= é um processo que remove os do RNA. O splicing só ocorre em células eucarióticas, já que o DNA das células eucarióticas não possui
íntrons.
íntrons
e junta os
éxons
depois da transcrição
Criação da Biblioteca
• Pode-se utilizar: • Todo o RNA da célula • Possui 90-95% de rRNA • Apenas mRNA selecionado pela cauda de poli-A • Perde-se microRNAs e mRNAs sem poli-A • • • Retirando o rRNA • Por hibridização com sequencias específicas ligadas a biotina que são retiradas com esferas ligadas a streptovidina • Quebra por uma exonuclease que age sobre RNAs que possuem fosfato na extremidade 5' (apenas rRNAs possuem esse fosfato) A remoção de rRNAs aumenta a detecção e a montagem de transcritos raros.
Mas se o objetivo do estudo biblioteca não depletada.
é a quantificação, é necessário uma
Criação da Biblioteca
• Para a criação da biblioteca o RNA é transformado em cDNA por uma transcriptase reversa • Para não se perder a direcionalidade do transcrito podem ser acrescentados adaptadores a uma extremidade do RNA • isso é muito importante no estudo de espécies de genoma muito compactado onde o transcrito pode se sobrepor em fitas opostas • O RNA pode ser fragmentado antes da formação de cDNA evitando a formação de estrutura secundária
• Cada molécula de cDNA, com ou sem amplificação, é então sequenciada com um método de alto rendimento para obter sequências curtas de um final (sequenciamento
single-end
) ou de ambos os lados (sequenciamento
pair-end
).
• As leituras são tipicamente 30 – 400 bp, dependendo da tecnologia usada para sequenciamento do DNA.
• Para esse método tem se usado plataformas tipo: Illumina IG, SOLiD e 454.
Considerações Prioritárias na montagem
• Para garantir uma alta qualidade na montagem do transcriptoma, cuidados particulares devem ser tomados nos experimentos de RNA-Seq.
• Na fase de análise de dados, as leituras curtas são pré-processadas para remover erros de sequenciamento e outros artefatos.
• As leituras são subsequentemente montadas nos RNAs originais e então sua abundância é avaliada.
[Martin, J. A.; Wang, Z. 2011]
• Para evitar erros na montagem de RNA, é necessário retirar o passo de amplificação por PCR • Na etapa de podem ser amplificação por PCR alguns fragmentos melhor amplificados que outros prejudicando os dados • Já é possível fazer o sequenciamento sem amplificação usando as plataformas Helicos e Pacific Biosciences, • O sequenciamento através de uma única molécula é possível, porém essas tecnologias ainda sofrem com a alta taxa de erro.
Estratégias de Montagem do Transcriptoma
• Baseado em três categorias : Etratégia baseada em referência Estratégia
de novo
Estratégia combinada
Estratégia baseada em Referência
• Quando existe um genoma de referência o transcriptoma pode ser construido a partir dele.
• Esse • • • método inclui três passos: Alinhamento das leituras sobre o genoma de referência As leituras sobrepostas em cada locus construir um são agrupadas para gráfico de todas as isoformas possíveis.
O gráfico é analisado para resolver isoformas individuais.
• Programas: Blat, TopHat, SpliceMap, MapSplice, GSNAP
[Martin, J. A.; Wang, Z. 2011]
[Martin, J. A.; Wang, Z. 2011]
• Após as leituras serem alinhadas ao genoma, dois métodos são usados para a construção dos gráficos: Cufflinks cria um gráfico de sobreposição de todas as leituras que alinham com um único locus para montar isoformas encontrando o mínimo de transcritos que explicam os introns dentro da leitura.
é mais conservativo na escolha de quais os transcritos são re construidos Scripture cria um gráfico que une cada base de um cromossomo e adiciona nas laterais (conexões) entre as bases se existe uma leitura que liga duas bases.
pode produzir um grande conjunto de transcritos de um locus.
Vantagens
• Pode montar transcritos de baixa abundância; • Pode usar computação paralela • Pode ser feita em máquinas com poucos gb de RAM; • Descobrir novos transcritos que não estão em anotações já existentes; • Descarta artefatos e contaminantes (que não alinham) • Usado para transcriptomas simples: • bactérias, archeaeal, eucarióticos simples • com poucos introns • pouco splicing alternativo
Desvantagens
• Não é possível sem um genoma de referência; • Depende da qualidade do genoma de referência ; • Genomas podem não ser completos, ter regiões não agrupadas e parcialmente montadas.
• Genes que se encontram muito próximos ou sobrepostos podem ser interpretados com um único transcrito • Não une leituras que esteja muito distantes no genoma ou em cromossomos diferentes
Estratégia
de novo
• Não utiliza um genoma de referência; • Se utiliza da redundância das leituras para encontrar sobreposições entre as leituras • Programas usam o gráfico
De Brujin
para reconstruir transcritos de uma ampla faixa de níveis de expressão e então processar a montagem de contigs e remover redundancias.
• Semelhante à montagem de genoma
[Martin, J. A.; Wang, Z. 2011]
[Martin, J. A.; Wang, Z. 2011]
Vantagens
• Não depende de um genoma de referência; • Pode providenciar um novo conjunto de dados de transcritos para genomas que não apresenta alta qualidade; • Pode ser usado para encontrar transcritos exógenos ou que estão faltando no genoma; • Não é influenciado por longos introns • Encontra transcritos
trans-spliced
, resultantes de rearranjos cromossomais • Pode ser utilizado para o transcriptoma de organismos complexos
Desvantagens
• A montagem de organismos eucariotos complexos pode consumir muita memória RAM • • Grande quantidade de dados Complexidade dos gráficos de Brujin nescessários para analizar os possíveis splicings • Consome dias ou semanasde processamento • Exige maior cobertura(30x) • Suscetível a erros de leitura, pode não diferenciar um erro do sequenciamento de um splicing • Trechos similares(como parálogos) ainda podem ser considerados um só transcrito
Estratégia Combinada
• A combinação dos dois métodos pode ser utilizada • O alinhamento tem a vantagem da sensibilidade • O
De Novo
para encontrar transcritos novos e
trans-spliced
• Realizando o alinhamento primeiro podemos descartar as sequências já conhecidas • • Quando o genoma de referência tem baixa qualidade a montagem
De Novo
pode ser feita primeiro • Fazendo a montagem
De Novo
com uma quantidade muito menor de dados Os
contigs
e
singlets
são alinhados no genoma e as lacunas podem ser preenchidas com informações do genoma
[Martin, J. A.; Wang, Z. 2011]
Cobertura x Custo
• Uma questão importante é a cobertura da sequência ou a porcentagem dos transcritos pesquisados, os quais implicam no custo.
• Grandes coberturas requerem mais sequenciamento.
• Em transcriptomas simples, como da levedura
cerevisiae,
que não tem evidência de
splicing S.
alternativo, 30 milhões de leituras de 35 nucleotídeos são suficientes para observar a transcrição de mais de 90% dos genes de células em crescimento sob uma condição unica
• RNA Seq revela a localização precisa dos limites da transcrição, com a resolução base a base.
• Além disso, pequenas leituras de 30 pb de RNA-Seq nos mostra informação como 2 exons estão conectados, enquanto leituras longas ou leituras curtas por
pair-ends
poderiam revelar conectividade entre exons múltiplos.
• Os resultados de RNA Seq também mostram alto nível de reprodutibilidade, para ambas as técnicas e replicatas biológicas.
Utilizações
• Descoberta de pequenos RNAs • Quantificação da expressão em diferentes momentos • Fusão de genes em câncer • Identificação de mutações • Metagenômica