LGE - Laboratório de Genômica e Expressão Ramon Oliveira Vidal Email: [email protected] Doutorando em Genética e Biologia Molecular Sub área: Bioinformática Orientador: Gonçalo A.G.

Download Report

Transcript LGE - Laboratório de Genômica e Expressão Ramon Oliveira Vidal Email: [email protected] Doutorando em Genética e Biologia Molecular Sub área: Bioinformática Orientador: Gonçalo A.G.

LGE - Laboratório de Genômica e Expressão
Ramon Oliveira Vidal
Email: [email protected]
Doutorando em Genética e Biologia Molecular
Sub área: Bioinformática
Orientador: Gonçalo A.G. Pereira
@ramonvidal





Marcadores Moleculares
◦ Marcadores por Hibridação
◦ Marcadores por Amplificação
Polimorfismos X mutações
SNPs
◦
◦
◦
◦
◦
Origem
Aplicações
Haplótipos
Genotipagem
Identificando os SNPs (em genomas e transcriptomas)
 Sanger
 454
 Solexa
Taxa de evolução
Identificação de SNPs em Coffea arabica
Fenótipo
Propriedades observáveis de um indivíduo, que se
desenvolveram sob a influência de:
 genótipo do indivíduo
 fatores ambientais
Genótipo
Constituição genética de um organismo
como revelada pela análise genética e
molecular, ou seja, o conjunto completo de
genes, tanto dominantes e recessivos.

Qualquer característica morfológica ou
molecular que diferencia indivíduos, e que
seja facilmente detectável
É um fenótipo de fácil identificação, normalmente
determinado por um único alelo.
Características fenotípicas de fácil identificação visual
são utilizadas como marcadores morfológicos desde
os tempos de Mendel
Polimorfismo detectado na seqüência de DNA

Vantagens:
- Não é objeto de influências ambientais;
- Praticamente ilimitado em número;
Maior desvantagem é a necessidade de técnicas e
equipamentos mais complexos.
Reprodutibilidade;
 Amplamente distribuído através do
genoma;
 Poder de discriminação;
 Ausência de influências ambientais;
 Barato;
 Fácil de mensurar





Diplóide: Constituído por duas cópias (homólogos)
de cada cromossomo.
Alelo: As formas alternativas de um caráter
genético encontrado em um determinado locus de
um cromossomo.
Homozigotos: Um organismo diplóide com alelos
idênticos de um determinado gene em ambos os
cromossomos homólogos.
Heterozigotos :Um organismo diplóide com alelos
diferentes de um determinado gene em ambos os
cromossomos homólogos.
homozigoze
Diplóide
Alelos
heterozigoze
Haplóide

Hibridação
◦ RFLP – (Restriction Fragment Length Polymorphism)
◦ Minissatélites – VNTR –(Variable Number of Tandem
Repeats)

Amplificação de DNA
◦ RAPD – (Random Amplified Polymorphic DNA)
◦ SCAR (Sequence Characterized Amplified Regions)
ou ASA (Amplified Specific Amplicon)
◦ Microssatélites –SSR (Simple Sequence Repeats)
◦ AFLP (Amplified Fragment Length Polymorphism)
RFLP – Restriction Fragment Length Polymorphism
RFLP – Restriction Fragment Length Polymorphism
Polimorfismo de DNA
entre indivíduos pode ser
devido a:
• Ausência do sítio do
primer.
• Surgimento de um novo
sítio.
• Ao comprimento da
região amplificada entre
sítios de primer


Significa Seqüências Simples Repetidas, a
qual consiste de pequenas seqüências de
nucleotídeos (1 a 4) repetidas em tandem.
Essas seqüências são distribuídas ao acaso
no genoma e é um dos marcadores mais
utilizados atualmente



Primers específicos (20 a 30 pb).
Diferentes números de elementos simples
repetidos.
Cada segmento amplificado de tamanho
diferente representa um alelo diferente do
mesmo loco

Mutações genéticas

Polimorfismos genéticos
◦ Alteração na seqüência de nucleotídeos de uma
molécula de DNA.
◦ O termo "mutação“ é geralmente usado para referir-se a
alterações na seqüência de DNA que não estão presentes
na maioria dos indivíduos de uma espécie
◦ Diferença na seqüência de DNA entre indivíduos, grupos
ou populações.
◦ Incluem SNPs, seqüências repetitivas, inserções,
deleções e recombinações.
 Podem dar origem a olhos ou olhos castanhos, cabelo liso
ou cabelos crespo
◦ Resultado de processos naturais ou induzidos por
agentes externos (como vírus ou radiação).

Polimorfismos são alterações no DNA que se
mantém nas gerações futuras
◦ Polimorfismo: variação >1%
◦ Mutação: variação <1%
94%
CTTAGCTT
99.9%
CTTAGCTT
6%
CTTAGTTT
0.1%
CTTAGTTT
Polimorfismo
Mutação
Polimorfismos genéticos X Mutações
genéticas
TAAAAAT
• Polimorfismos foram
mutações que se propagaram
ao longo de gerações
TAAAAAT
TAAAAAT
TAAAAAT
TAACAAT
TAAAAAT
TAACAAT
TAACAAT
TAACAAT
TAACAAT

Single Nucleotide
Polymorphism, ou SNP
("snip"):
◦ pequena mudança, ou variação,
que pode ocorrer em um único
nucleotídeo numa sequência de
DNA em uma porção significativa
(mais de 1%) de uma população.


SNPs são as mais frequêntes formas de
variações genéticas
◦ 90% das variações genéticas humanas
vêm dos SNPs
SNPs tem se tornado marcadores de preferência
pela
sua
grande
abundância
e
desenvolvimento
de
tecnologias
genotipagem em larga escala.
pelo
de

SNPs em menor quantidade em genes do que em regiões nãocodificantes

Menor quantidade de SNPs nos cromossomos sexuais (humano).

Dentro de um único cromossomo, SNPs podem se concentrar em
uma região específica, geralmente implicando uma região de
interesse ou de pesquisa.

Em média, ocorrem a cada 300~600 nucleotídeos (humano).

Genes com maior pressão para modificação tem maior frequência de
SNP (resistência, adaptação, interação parasita-hospedeiro, etc)

Intra espécie
◦ Diversidade entre os indivíduos de uma
mesma espécie
◦ Reflete os SNPs entre os alelos (espécies
diplóides)

Inter espécies
◦ Diversidade entre espécies diferentes
Transições
Purina<->Purina
Pirimidina<->Pirimidina
Transversões
Purina<->Pirimidina
Não-codificantes
Codificantes
Sinônimas
Não-sinônimas
conservativas
Não-conservativas


Genotipagem
◦ Detecção de genótipos de individuos.
◦ Pode ser realizada observando os SNPs.
Haplótipo (genótipo haplóide)
◦ Alelo encontrado em um único cromossomo que
apresenta o mesmo padrão de SNPs.
◦ Blocos haplótipos e tendem a ser herdados
juntos.
◦ Podem servir como marcadores de doença
genética.
◦ A análise de haplótipos é útil na identificação de
eventos de recombinação.


Dentro de um bloco haplótipo, acontece pouca
ou nenhuma recombinação
Os SNPs dentro de um bloco haplótipo são
passados juntos nas gerações futuras

Um haplótipo é um conjunto de SNP no mesmo
cromossomo
-A C T T T G C T C-
Haplotype 1
C
T
C
-A C T T A G C T T-
Haplotype 2
C
A
T
-A A T T T G C T C-
Haplotype 3
A
T
C
SNP1 SNP2
SNP3
SNP1 SNP2
SNP3
Haplotype patterns
I2
I1
C1
Recombination
hotspots
S1
S2
Haplotype
blocks
SNP
loci
S3
S4
S5
S1
SNP
loci
S2
S3
S4
S5
Chromosome
C2
C1
: Major allele
: Minor allele
C2

SNPs estão relacionados com a diversidade
de genótipos de humanos
◦ podem ser mapeados relacionando-os a
diversidade de fenótipos.

Um SNP individual ou um bloco haplótipo
pode servir de indicação para
◦ características agronômicas
◦ doenças
◦ etc

Essa relação constitui a base e a motivação
para a identificação e genotipagem de SNPs.

O genoma de cada indivíduo contém
distintos padrões de SNPs

Pessoas podem ser agrupadas de acordo
com esse perfil

Perfil de SNPs são importantes na
identificação de respostas a terapias
◦ Existe uma correlação entre certos perfis de SNPs
e respostas específicas a tratamentos
 Genoma/transcriptoma
◦ Sanger
◦ 454
◦ Solexa/Solid/...
 Alinhamento
de sequências
 Identificação de Discrepâncias
Encontrando SNPs:
Mineração de SNPs baseados no sequenciamento
(Sanger tradicional)
Genomic
mRNA
cDNA
Library
EST
Overlap
Sequenciamento
De DNA
BAC
Library
RRS
Library
BAC
Overlap
Shotgun
Overlap
Encontrando SNPs:
Mineração de SNPs baseados no sequenciamento
DNA from multiple individuals
Fragment DNA
Sequence and Reassemble
(known sequence)
Assembly with other overlapping
mismatches = SNPs
GTTACGCCAATACAGGATCCAGGAGATTACC
GTTACGCCAATACAGCATCCAGGAGATTACC
Amplificação do DNA
5’
Sequenciamento
3’
Vários indivíduos
Phred
Phrap
Base-calling
Contig assembly
PolyPhred
Polymorphism detection
Consed
Sequence viewing
Polymorphism tagging
Analysis
Relatório de polimorfismos
Genotipagem individual
SNP Discovery - Sanger sequencing (EST)
SNP Discovery - Diploids (heterozygous loci)



Método Sanger foi o único utilizado por 30
anos
Sanger processa em paralelo 96 sequencias
enquanto NGS processa milhões de
sequencias a um custo 6X menor.
Problemas:
◦
◦
◦
◦
Fidelidade dos dados
Tamanho dos reads
Custo da infraestrutura
Manipular grandes volumes de dados
ACTTAAGGCTGACTAGC



TCGTACCGATATGCTG
Sequencias curtas não mapeiam unicamente
em um lugar no genoma.
Solução #1: Reads longos.
Solução #2: Reads pareados.

Necessário ter uma montagem de referência

Mapeamento dos reads na referencia

Coberturas médias necessárias:
◦ Solexa - 100X, 454 - 10X

Análise estatística para validar discrepâncias com base na
redundância dos dados

Muitos Softwares disponíveis

Desenvolvimento de algorítmos para aumentar velocidade de
processamento
http://seqanswers.com/wiki/Special:BrowseData
sequencing errors
SNP
haploid
strain 1
AACGTTAGCATA
AACGTTAGCATA
AACGTTAGCATA
strain 2
AACGTTCGCATA
AACGTTCGCATA
strain 3
AACGTTAGCATA
AACGTTAGCATA
AACGTTAGCATA
diploid
individual 1
AACGTTAGCATA
AACGTTAGCATA
AACGTTCGCATA
AACGTTCGCATA
individual 2
AACGTTCGCATA
AACGTTCGCATA
AACGTTCGCATA
AACGTTCGCATA
individual 3
AACGTTAGCATA
AACGTTAGCATA
Para inferir uma taxa de evolução a um gene
são estimados o KA e o KS
KA - é a relação entre substituições não
sinônimas e todos os possíveis sitios não
sinônimos
KS – é a relação entre substituições
sinônimas e todos os possíveis sítios
sinônimos
Exemplo:
Prolina:
◦ CCT
◦ CCA
◦ CCG
◦ CCC
Um sítio sinônimo e dois não sinônimos

A taxa KA/KS é uma medida clássica da evolução de
maneira global num gene

KA/KS << 1 indica que uma substancial proporção de
mudanças de aminoácidos devem ter sido eliminadas
por seleção de purificação.

KA/KS > 1 indica seleção adaptativa ou positiva








NG: Nei, M. and Gojobori, T. (1986) - Faster
LWL: Li, W.H., et al. (1985)
LPB: Li, W.H. (1993) and Pamilo, P. and
Bianchi, N.O. (1993)
MLWL (Modified LWL), MLPB (Modified LPB):
Tzeng, Y.H., et al. (2004)
YN: Yang, Z. and Nielsen, R. (2000)
MYN (Modified YN): Zhang, Z., et al. (2006)
GY: Goldman, N. and Yang, Z. (1994)
MS (Model Selection), MA (Model Averaging)


A taxa de KAKS em humanos e chimpanzes é de
0,23.
Assumindo que mutações sinônimas são neutras,
esse resultado implica que 77% das alterações de
aminoácidos
em
genes
hominideos
são
suficientemente deletérias e são eliminadas por
seleção natural. Como mutações sinônimas não são
totalmente neutras, a proporção de alterações de
aminoácido neutras com consequências deletérias
deve ser maior




Identificar e caracterizar SNPs em sequências
de EST
Identificar os haplótipos com base nos
padrões de SNPs
Identificar kaks
Foram utilizados dados de duas espécies de
café:
◦ Coffea arabica,
◦ Coffea canephora







Espécie diplóide
Polinização cruzada: Alógama.
Alta variabilidade
C. canephora é melhor adaptada ao clima
equatorial úmido e quente
Cultivada em baixas e médias altitudes
Qualidade de bebida inferior
Mais resistente a diversas condições do que
Coffea arabica, em particular a doenças e
pragas.




Allopoliploide (tetraplóide)
Autógama
Baixa variabilidade
Originada de um cruzamento recente
(1mya) entre Coffea eugenoides e Coffea
canephora


Espécie mais cultivada. Ocupa 75% das
plantações mundiais de café.
Qualidade da bebida excelente.
 CAP3
para montagem dos EST
 QualitySNP
 KaKs_calculator
 Scripts PERL

95% similaridade por 100bp
◦ Previnir agrupamento de parálogos
Remover clusters com menos de 4
ESTs
 Remover clusters com mais de 500
ESTs

◦ Evitar contigs mal formados


Analisar informações do CAP3 (Arquivo ACE)
Detecção de SNPs
◦ Filtros
◦ Reconstrução de haplótipos


Detecção de polimorfismos sinônimos e não
sinônimos com o FASTY
Construir Banco de dados com os dados
gerados.


Detecta todos os SNPs bi, tri e tetra alélicos
Cada alelo é representado com mais de uma
sequencia.
◦ Excluindo SNPs singlets

Classificação dos SNPs como intra ou inter
espécies




Agrupa sequências que representam um
mesmo alelo
Tem os mesmos nucleotídeos nos sítios
polimorficos.
Utiliza métodos matemáticos para minimizar
falsas reconstruções de haplótipos
Exclui haplótipos formados por apenas uma
sequencia



É calculado de acordo com a ocorrencia do
SNP em cada alelo com relação às regiões de
alta e baixa qualidade
O score de confiabilidade é o menor valor
Descartados valores abaixo de 2

Fasty
◦ Produz menores alinhamentos em sequencias de
baixa qualidade




Detecção da ORF
Correção de frameshifts
Detecção de sSNP/nsSNP e SNPs ou INDELs
em regiões UTR
Kaks Calculator






Identificação dos ancestrais haplótipos
Padrões diferentes de expressão dos
homeologos
Contribuição de cada ancestral de arabica no
transcriptoma relacionando ao fenótipo
Genes com maior pressão seletiva para
mudança
Genes com maior pressão seletiva para
estabilização
Artigo submetido e em revisão
Genômica, Transcriptômica, Biologia Sintética,
Biologia de Sistemas
http://www.lge.ibi.unicamp.br