Transcript RNAseq

Disciplina BMP 5762 – Bioinformática Aplicada ao Estudo de Doenças Parasitárias

RNA-SEQ: CONCEITO E APLICAÇÕES

Ana da Rocha Kurata Katie Cristina Takeuti Riciluca

RNA-seq

• RNA seq é uma abordagem recentemente desenvolvida, para analisar o perfil de transcriptoma, que utiliza tecnologias de

deep-sequencing

.

• O transcriptoma é o conjunto completo de transcritos (RNAs) em uma célula, e sua quantidade, para um estágio de desenvolvimento específico ou condição fisiológica.

• *

deep-sequencing

= indica que a cobertura do processo é muito maior que o comprimento da sequencia em estudo.

• O entendimento do transcriptoma é essencial para: • Interpretar os elementos funcionais do genoma • Revelar os constituintes moleculares de células e tecidos nos diferentes estágios de desenvolvimento • Compreender os elementos presentes no desenvolvimento de doenças • O transcriptoma pretende catalogar todos os tipos de transcritos: • • mRNAs RNAs não codificadores • pequenos RNAs.

Porquê estudar o transcriptoma?

• • • • • Para determinar a estrutura transcripcional dos genes, em termos de seus sítios de início 5’ e final 3’; Padrões de traducionais;

splicing

e outras modificações pós Quantificar os níveis de mudanças de expressão de cada transcrito durante o desenvolvimento e sob condições diferentes.

Encontrar microRNAs que possuem função reguladora Metagenômica *

Splicing

= é um processo que remove os do RNA. O splicing só ocorre em células eucarióticas, já que o DNA das células eucarióticas não possui

íntrons.

íntrons

e junta os

éxons

depois da transcrição

Criação da Biblioteca

• Pode-se utilizar: • Todo o RNA da célula • Possui 90-95% de rRNA • Apenas mRNA selecionado pela cauda de poli-A • Perde-se microRNAs e mRNAs sem poli-A • • • Retirando o rRNA • Por hibridização com sequencias específicas ligadas a biotina que são retiradas com esferas ligadas a streptovidina • Quebra por uma exonuclease que age sobre RNAs que possuem fosfato na extremidade 5' (apenas rRNAs possuem esse fosfato) A remoção de rRNAs aumenta a detecção e a montagem de transcritos raros.

Mas se o objetivo do estudo biblioteca não depletada.

é a quantificação, é necessário uma

Criação da Biblioteca

• Para a criação da biblioteca o RNA é transformado em cDNA por uma transcriptase reversa • Para não se perder a direcionalidade do transcrito podem ser acrescentados adaptadores a uma extremidade do RNA • isso é muito importante no estudo de espécies de genoma muito compactado onde o transcrito pode se sobrepor em fitas opostas • O RNA pode ser fragmentado antes da formação de cDNA evitando a formação de estrutura secundária

• Cada molécula de cDNA, com ou sem amplificação, é então sequenciada com um método de alto rendimento para obter sequências curtas de um final (sequenciamento

single-end

) ou de ambos os lados (sequenciamento

pair-end

).

• As leituras são tipicamente 30 – 400 bp, dependendo da tecnologia usada para sequenciamento do DNA.

• Para esse método tem se usado plataformas tipo: Illumina IG, SOLiD e 454.

Considerações Prioritárias na montagem

• Para garantir uma alta qualidade na montagem do transcriptoma, cuidados particulares devem ser tomados nos experimentos de RNA-Seq.

• Na fase de análise de dados, as leituras curtas são pré-processadas para remover erros de sequenciamento e outros artefatos.

• As leituras são subsequentemente montadas nos RNAs originais e então sua abundância é avaliada.

[Martin, J. A.; Wang, Z. 2011]

• Para evitar erros na montagem de RNA, é necessário retirar o passo de amplificação por PCR • Na etapa de podem ser amplificação por PCR alguns fragmentos melhor amplificados que outros prejudicando os dados • Já é possível fazer o sequenciamento sem amplificação usando as plataformas Helicos e Pacific Biosciences, • O sequenciamento através de uma única molécula é possível, porém essas tecnologias ainda sofrem com a alta taxa de erro.

Estratégias de Montagem do Transcriptoma

• Baseado em três categorias : Etratégia baseada em referência Estratégia

de novo

Estratégia combinada

Estratégia baseada em Referência

• Quando existe um genoma de referência o transcriptoma pode ser construido a partir dele.

• Esse • • • método inclui três passos: Alinhamento das leituras sobre o genoma de referência As leituras sobrepostas em cada locus construir um são agrupadas para gráfico de todas as isoformas possíveis.

O gráfico é analisado para resolver isoformas individuais.

• Programas: Blat, TopHat, SpliceMap, MapSplice, GSNAP

[Martin, J. A.; Wang, Z. 2011]

[Martin, J. A.; Wang, Z. 2011]

• Após as leituras serem alinhadas ao genoma, dois métodos são usados para a construção dos gráficos: Cufflinks cria um gráfico de sobreposição de todas as leituras que alinham com um único locus para montar isoformas encontrando o mínimo de transcritos que explicam os introns dentro da leitura.

é mais conservativo na escolha de quais os transcritos são re construidos Scripture cria um gráfico que une cada base de um cromossomo e adiciona nas laterais (conexões) entre as bases se existe uma leitura que liga duas bases.

pode produzir um grande conjunto de transcritos de um locus.

Vantagens

• Pode montar transcritos de baixa abundância; • Pode usar computação paralela • Pode ser feita em máquinas com poucos gb de RAM; • Descobrir novos transcritos que não estão em anotações já existentes; • Descarta artefatos e contaminantes (que não alinham) • Usado para transcriptomas simples: • bactérias, archeaeal, eucarióticos simples • com poucos introns • pouco splicing alternativo

Desvantagens

• Não é possível sem um genoma de referência; • Depende da qualidade do genoma de referência ; • Genomas podem não ser completos, ter regiões não agrupadas e parcialmente montadas.

• Genes que se encontram muito próximos ou sobrepostos podem ser interpretados com um único transcrito • Não une leituras que esteja muito distantes no genoma ou em cromossomos diferentes

Estratégia

de novo

• Não utiliza um genoma de referência; • Se utiliza da redundância das leituras para encontrar sobreposições entre as leituras • Programas usam o gráfico

De Brujin

para reconstruir transcritos de uma ampla faixa de níveis de expressão e então processar a montagem de contigs e remover redundancias.

• Semelhante à montagem de genoma

[Martin, J. A.; Wang, Z. 2011]

[Martin, J. A.; Wang, Z. 2011]

Vantagens

• Não depende de um genoma de referência; • Pode providenciar um novo conjunto de dados de transcritos para genomas que não apresenta alta qualidade; • Pode ser usado para encontrar transcritos exógenos ou que estão faltando no genoma; • Não é influenciado por longos introns • Encontra transcritos

trans-spliced

, resultantes de rearranjos cromossomais • Pode ser utilizado para o transcriptoma de organismos complexos

Desvantagens

• A montagem de organismos eucariotos complexos pode consumir muita memória RAM • • Grande quantidade de dados Complexidade dos gráficos de Brujin nescessários para analizar os possíveis splicings • Consome dias ou semanasde processamento • Exige maior cobertura(30x) • Suscetível a erros de leitura, pode não diferenciar um erro do sequenciamento de um splicing • Trechos similares(como parálogos) ainda podem ser considerados um só transcrito

Estratégia Combinada

• A combinação dos dois métodos pode ser utilizada • O alinhamento tem a vantagem da sensibilidade • O

De Novo

para encontrar transcritos novos e

trans-spliced

• Realizando o alinhamento primeiro podemos descartar as sequências já conhecidas • • Quando o genoma de referência tem baixa qualidade a montagem

De Novo

pode ser feita primeiro • Fazendo a montagem

De Novo

com uma quantidade muito menor de dados Os

contigs

e

singlets

são alinhados no genoma e as lacunas podem ser preenchidas com informações do genoma

[Martin, J. A.; Wang, Z. 2011]

Cobertura x Custo

• Uma questão importante é a cobertura da sequência ou a porcentagem dos transcritos pesquisados, os quais implicam no custo.

• Grandes coberturas requerem mais sequenciamento.

• Em transcriptomas simples, como da levedura

cerevisiae,

que não tem evidência de

splicing S.

alternativo, 30 milhões de leituras de 35 nucleotídeos são suficientes para observar a transcrição de mais de 90% dos genes de células em crescimento sob uma condição unica

• RNA Seq revela a localização precisa dos limites da transcrição, com a resolução base a base.

• Além disso, pequenas leituras de 30 pb de RNA-Seq nos mostra informação como 2 exons estão conectados, enquanto leituras longas ou leituras curtas por

pair-ends

poderiam revelar conectividade entre exons múltiplos.

• Os resultados de RNA Seq também mostram alto nível de reprodutibilidade, para ambas as técnicas e replicatas biológicas.

Utilizações

• Descoberta de pequenos RNAs • Quantificação da expressão em diferentes momentos • Fusão de genes em câncer • Identificação de mutações • Metagenômica

Obrigada!