Transcript Alinhamento de sequências
Alinhamento de sequências
Prof. Dr. Francisco Prosdocimi
Definição
O alinhamento de sequências consiste no processo de comparar duas ou mais sequências (de nucleotídeos ou aminoácidos) de forma a se observar seu nível de similaridade Comparação de strings Identificação de substrings compartilhadas Uma das mais poderosas técnicas da bioinformática
Tipos de alinhamento
• Simples X Múltiplo • Local X Global • Heurístico X Ótimo
Score = 276 bits (139), Expect = 3e-78 Identities = 139/139 (100%) Strand = Plus / Plus Query: 326 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 385 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 560 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 619 Query: 386 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 445 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 620 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 679 Query: 446 gcgaaacttctctcagaaa 464 ||||||||||||||||||| Sbjct: 680 gcgaaacttctctcagaaa 698
Alinhamento Simples
• Aquele realizado entre seqüências de DNA ou proteínas, desde que
duas a duas
Score = 652 bits (329), Expect = 0.0
Identities = 240/240 (100%) Strand = Plus / Plus Interpretando os valores
Query
: 1 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 60 ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct
: 136 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 195 Query: 61 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 120 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 196 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 255 Query: 121 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 180 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 256 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 315 Query: 181 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 240 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 316 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 375
Alinhamento múltiplo
• Aquele realizado entre MAIS DE DUAS seqüências de DNA ou proteínas Seq1 ----------------------------------------------------------- Seq4 -GCACGAGGACTGTGA-----ACCGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA Seq2 ------------------------------GTTCAGTAAAATGTTCAATTGTGCGCTGGA Seq3 GGCACGAGGGCTACGACTGTGAACGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA Seq1 ----------------------------------------------------------- Seq4 ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA Seq2 ATCTATTGTGTAGACT-TTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA Seq3 ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATT-ACTAAAAAGCTGAGCA Seq1 ---------------------CTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT Seq4 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT Seq2 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT Seq3 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT ***************************************
Alinhamentos Global e Local
• •
Global
: as seqs são alinhadas de ponta a ponta
Local
: pedaços das seqs é que são comparados Qual deles é melhor?
Alinhamentos ótimo e heurístico
•
heurística
- do dicionário
Houaiss
Acepções ¦ substantivo feminino 1 arte de inventar, de fazer descobertas; ciência que tem por objeto a descoberta dos fatos 1.1 Rubrica: história. ramo da História voltado à pesquisa de fontes e documentos
1.2 Rubrica: informática. método de investigação baseado na aproximação progressiva de um dado problema
1.3 Rubrica: pedagogia. método educacional que consiste em fazer descobrir pelo aluno o que se lhe quer ensinar LOGO: • Alinhamento
ótimo
: produz o melhor resultado computacionalmente possível • Alinhamento
heurístico
: produz um resultado o mais próximo possível do resultado ótimo, mas, principalmente, produz um resultado de maneira muito veloz
Ferramentas de alinhamento
Programa
BLAST2Sequences SWAT (Smith-Waterman) ClustalW Multalin Needleman-Wunsch
Tipo de Alinhamento Precisão do Alinhamento Número de seqüências a serem alinhadas
Local Heurístico 2 Local Global Global Global Ótimo Heurístico Heurístico Ótimo 2 N N 2
Elementos de um alinhamento
Matrizes de substituição
• Definem pontuação específica específica para a troca entre símbolos A C G T A 1 -2 -2 -2 C -2 1 -2 -2 G -2 -2 1 -2 T -2 -2 -2 1 • Qual a diferença entre as duas matrizes ao lado • Modelos de substituição – Jukes-Cantor X Kimura A C G T A 1 -2 -1 -2 C -2 1 -2 -1 G -1 -2 1 -2 T -2 -1 -2 1
Matrizes de substituição de aminoácidos
Outros parâmetros
• Matrizes de substituição definem a pontuação para matches e mismatches • A penalidade de
abertura e extensão de gaps
também é importante • Na maioria dos programas, o usuário pode fornecer um parâmetro para modificar a pontução – Não deve ser utilizado a menos que se saiba o que se está fazendo
BLAST
Prof. Dr. Francisco Prosdocimi
BLAST
• Basic Local Alignment Search Tool • Ferramenta de alinhamento
mais utilizada
no mundo • • Todo pesquisador em biologia molecular já usou alguma vez (ou centenas de vezes)
Diz-se
que o trabalho original onde a ferramenta foi publicada é o mais citado da história das ciências biológicas • É um algoritmo de alinhamento
simples
,
heurístico
e
local
• Alinha um seqüência de entrada contra uma base de dados desejada
Sub-programas BLAST
Formato da Seqüência de Entrada
Nucleotídeos Proteínas Nucleotídeos Proteínas Nucleotídeos
Banco de dados
Nucleotídeos Proteínas Proteínas Nucleotídeos Nucleotídeos
Formato da seqüência que é comparado
Nucleotídeos
Programa BLAST adequado
BLASTn Proteínas Proteínas BLASTp BLASTx Proteínas Proteínas TBLASTn TBLASTtx
BLAST, funcionamento
• • • • • • Heurístico Define um tamanho de palavra chamado
seed
(semente) – Blastn = 11; Megablast = 28 – Blastx = 3; Procura em seu banco de dados sequências com 100% de match da
seed
quando comparada com a query Alonga a extremidade da seed até onde o alinhamento seja “bom” Metodologia verdadeiramente
rápida E-value
: chance estatística de encontrar aquele ao alinhamento ao acaso, dado o tamanho da DB
Bases de dados BLAST
• Apresentam um formato especial • As sequências no formato FASTA devem ser formatadas usando um programa especial (
formatdb
) – Cria uma base de dados com todas as seeds possíveis e as sequências que as contém – Dados da base de dados estão pré-computados (velocidade) • O BLAST então pode comparar uma sequência FASTA de entrada com o banco de dados pronto >gi|188497754|ref|NP_000179.2| hexokinase 1 isoform HKI [Homo sapiens] MIAAQLLAYYFTELKDDQVKKIDKYLYAMRLSDETLIDIMTRFRKEMKNGLSRDFNPTATVKMLPTFVRS IPDGSEKGDFIALDLGGSSFRILRVQVNHEKNQNVHMESEVYDTPENIVHGSGSQLFDHVAECLGDFMEK RKIKDKKLPVGFTFSFPCQQSKIDEAILITWTKRFKASGVEGADVVKLLNKAIKKRGDYDANIVAVVNDT VGTMMTCGYDDQHCEVGLIIGTGTNACYMEELRHIDLVEGDEGRMCINTEWGAFGDDGSLEDIRTEFDRE IDRGSLNPGKQLFEKMVSGMYLGELVRLILVKMAKEGLLFEGRITPELLTRGKFNTSDVSAIEKNKEGLH NAKEILTRLGVEPSDDDCVSVQHVCTIVSFRSANLVAATLGAILNRLRDNKGTPRLRTTVGVDGSLYKTH PQYSRRFHKTLRRLVPDSDVRFLLSESGSGKGAAMVTAVAYRLAEQHRQIEETLAHFHLTKDMLLEVKKR MRAEMELGLRKQTHNNAVVKMLPSFVRRTPDGTENGDFLALDLGGTNFRVLLVKIRSGKKRTVEMHNKIY AIPIEIMQGTGEELFDHIVSCISDFLDYMGIKGPRMPLGFTFSFPCQQTSLDAGILITWTKGFKATDCVG HDVVTLLRDAIKRREEFDLDVVAVVNDTVGTMMTCAYEEPTCEVGLIVGTGSNACYMEEMKNVEMVEGDQ GQMCINMEWGAFGDNGCLDDIRTHYDRLVDEYSLNAGKQRYEKMISGMYLGEIVRNILIDFTKKGFLFRG QISETLKTRGIFETKFLSQIESDRLALLQVRAILQQLGLNSTCDDSILVKTVCGVVSRRAAQLCGAGMAA VVDKIRENRGLDRLNVTVGVDGTLYKLHPHFSRIMHQTVKELSPKCNVSFLLSEDGSGKGAALITAVGVR LRTEASS
Query
and
Subject
BlastDB
BLAST em LINUX
• Download dos programas executáveis BLAST através do NCBI • Permite que o usuário monte
sua própria base de dados
específica para um projeto • Permite parametrização detalhada $> formatdb –i cog.fasta –p T –n COG $> blastall –p blastp –i hexokinase.fasta –d COG –e 10 –m 10 –o hexokinase.blast.output –F T –v 500 –b 250 –M BLOSUM62
Alinhamentos múltiplos
Prof. Dr. Francisco Prosdocimi
What is a multiple alignment?
conserved residues conservation profile secondary structure
Blocos conservados
DbClustal • Blocos conservados – Domínios funcionais – Sítios catalíticos de enzimas – Assinaturas de famílias gênicas
Alinhamentos múltiplos
• Problema altamente complexo • Teoria da complexidade de algoritmos – O valor de
O
• Problema NP-completo (NP-hard) – Aumentando o número de sequências (ou o tamanho das sequências), o aumento no tempo de computação sobe exponencialmente • Clustal, MAFFT, T-coffe, MUSCLE, DIALIGN
Alinhamentos múltiplos e homologia
Do alinhamento à filogenia
• Métodos fenéticos • Montagem da matrix de distância
Example in Clustalx :
distance between 2 sequences = 1 No. identical residues No. aligned residues Hbb_human Hbb_horse Hba_human Hba_horse Myg_phyca Glb5_petma Lgb2_lupla 1 2 3 4 5 6 7 .17
.59
.59
.77
.81
.87
1 .60
.59
.77
.82
.86
2 .13
.75
.73
.86
3 .75
.74
.88
4 .80
.93
5 .90
6 7 -
Produção da árvore
• • Método
fenético
– Não considera a evolução de cada caráter (coluna no alinhamento) – Produz uma árvore a partir de uma matriz de distância gerada ao considerar todo o conjunto de dados
Vizinhos mais próximos
– Neighbor-joining • Average neighbor • Nearest neighbor • Farthest neighbor .061
.015
4 .062
5 6 3 .442
.226
.219
.398
.389
.081
2 .084
.055
1 .065
Hbb_human Hbb_horse Hba_human Hba_horse Myg_phyca Glb5_petma Lgb2_lupla
Conclusões
• O alinhamento de sequências e as técnicas para implementá-lo estão entre as mais importantes tarefas da bioinformática • Existe uma limitação para a análise filogenética que vem do fato de os alinhamentos multiplos não serem rápidos ou ótimos • O bioinformata deve conhecer as diferentes técnicas de alinhamento e saber aplicá-las corretamente