Alinhamento de sequências

Download Report

Transcript Alinhamento de sequências

Alinhamento de sequências

Prof. Dr. Francisco Prosdocimi

Definição

 O alinhamento de sequências consiste no processo de comparar duas ou mais sequências (de nucleotídeos ou aminoácidos) de forma a se observar seu nível de similaridade  Comparação de strings  Identificação de substrings compartilhadas  Uma das mais poderosas técnicas da bioinformática

Tipos de alinhamento

• Simples X Múltiplo • Local X Global • Heurístico X Ótimo

Score = 276 bits (139), Expect = 3e-78 Identities = 139/139 (100%) Strand = Plus / Plus Query: 326 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 385 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 560 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 619 Query: 386 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 445 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 620 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 679 Query: 446 gcgaaacttctctcagaaa 464 ||||||||||||||||||| Sbjct: 680 gcgaaacttctctcagaaa 698

Alinhamento Simples

• Aquele realizado entre seqüências de DNA ou proteínas, desde que

duas a duas

Score = 652 bits (329), Expect = 0.0

Identities = 240/240 (100%) Strand = Plus / Plus Interpretando os valores

Query

: 1 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 60 ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||

Sbjct

: 136 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 195 Query: 61 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 120 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 196 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 255 Query: 121 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 180 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 256 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 315 Query: 181 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 240 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 316 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 375

Alinhamento múltiplo

• Aquele realizado entre MAIS DE DUAS seqüências de DNA ou proteínas Seq1 ----------------------------------------------------------- Seq4 -GCACGAGGACTGTGA-----ACCGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA Seq2 ------------------------------GTTCAGTAAAATGTTCAATTGTGCGCTGGA Seq3 GGCACGAGGGCTACGACTGTGAACGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA Seq1 ----------------------------------------------------------- Seq4 ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA Seq2 ATCTATTGTGTAGACT-TTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA Seq3 ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATT-ACTAAAAAGCTGAGCA Seq1 ---------------------CTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT Seq4 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT Seq2 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT Seq3 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT ***************************************

Alinhamentos Global e Local

• •

Global

: as seqs são alinhadas de ponta a ponta

Local

: pedaços das seqs é que são comparados Qual deles é melhor?

Alinhamentos ótimo e heurístico

heurística

- do dicionário

Houaiss

Acepções ¦ substantivo feminino 1 arte de inventar, de fazer descobertas; ciência que tem por objeto a descoberta dos fatos 1.1 Rubrica: história. ramo da História voltado à pesquisa de fontes e documentos

1.2 Rubrica: informática. método de investigação baseado na aproximação progressiva de um dado problema

1.3 Rubrica: pedagogia. método educacional que consiste em fazer descobrir pelo aluno o que se lhe quer ensinar LOGO: • Alinhamento

ótimo

: produz o melhor resultado computacionalmente possível • Alinhamento

heurístico

: produz um resultado o mais próximo possível do resultado ótimo, mas, principalmente, produz um resultado de maneira muito veloz

Ferramentas de alinhamento

Programa

BLAST2Sequences SWAT (Smith-Waterman) ClustalW Multalin Needleman-Wunsch

Tipo de Alinhamento Precisão do Alinhamento Número de seqüências a serem alinhadas

Local Heurístico 2 Local Global Global Global Ótimo Heurístico Heurístico Ótimo 2 N N 2

Elementos de um alinhamento

Matrizes de substituição

• Definem pontuação específica específica para a troca entre símbolos A C G T A 1 -2 -2 -2 C -2 1 -2 -2 G -2 -2 1 -2 T -2 -2 -2 1 • Qual a diferença entre as duas matrizes ao lado • Modelos de substituição – Jukes-Cantor X Kimura A C G T A 1 -2 -1 -2 C -2 1 -2 -1 G -1 -2 1 -2 T -2 -1 -2 1

Matrizes de substituição de aminoácidos

Outros parâmetros

• Matrizes de substituição definem a pontuação para matches e mismatches • A penalidade de

abertura e extensão de gaps

também é importante • Na maioria dos programas, o usuário pode fornecer um parâmetro para modificar a pontução – Não deve ser utilizado a menos que se saiba o que se está fazendo

BLAST

Prof. Dr. Francisco Prosdocimi

BLAST

• Basic Local Alignment Search Tool • Ferramenta de alinhamento

mais utilizada

no mundo • • Todo pesquisador em biologia molecular já usou alguma vez (ou centenas de vezes)

Diz-se

que o trabalho original onde a ferramenta foi publicada é o mais citado da história das ciências biológicas • É um algoritmo de alinhamento

simples

,

heurístico

e

local

• Alinha um seqüência de entrada contra uma base de dados desejada

Sub-programas BLAST

Formato da Seqüência de Entrada

Nucleotídeos Proteínas Nucleotídeos Proteínas Nucleotídeos

Banco de dados

Nucleotídeos Proteínas Proteínas Nucleotídeos Nucleotídeos

Formato da seqüência que é comparado

Nucleotídeos

Programa BLAST adequado

BLASTn Proteínas Proteínas BLASTp BLASTx Proteínas Proteínas TBLASTn TBLASTtx

BLAST, funcionamento

• • • • • • Heurístico Define um tamanho de palavra chamado

seed

(semente) – Blastn = 11; Megablast = 28 – Blastx = 3; Procura em seu banco de dados sequências com 100% de match da

seed

quando comparada com a query Alonga a extremidade da seed até onde o alinhamento seja “bom” Metodologia verdadeiramente

rápida E-value

: chance estatística de encontrar aquele ao alinhamento ao acaso, dado o tamanho da DB

Bases de dados BLAST

• Apresentam um formato especial • As sequências no formato FASTA devem ser formatadas usando um programa especial (

formatdb

) – Cria uma base de dados com todas as seeds possíveis e as sequências que as contém – Dados da base de dados estão pré-computados (velocidade) • O BLAST então pode comparar uma sequência FASTA de entrada com o banco de dados pronto >gi|188497754|ref|NP_000179.2| hexokinase 1 isoform HKI [Homo sapiens] MIAAQLLAYYFTELKDDQVKKIDKYLYAMRLSDETLIDIMTRFRKEMKNGLSRDFNPTATVKMLPTFVRS IPDGSEKGDFIALDLGGSSFRILRVQVNHEKNQNVHMESEVYDTPENIVHGSGSQLFDHVAECLGDFMEK RKIKDKKLPVGFTFSFPCQQSKIDEAILITWTKRFKASGVEGADVVKLLNKAIKKRGDYDANIVAVVNDT VGTMMTCGYDDQHCEVGLIIGTGTNACYMEELRHIDLVEGDEGRMCINTEWGAFGDDGSLEDIRTEFDRE IDRGSLNPGKQLFEKMVSGMYLGELVRLILVKMAKEGLLFEGRITPELLTRGKFNTSDVSAIEKNKEGLH NAKEILTRLGVEPSDDDCVSVQHVCTIVSFRSANLVAATLGAILNRLRDNKGTPRLRTTVGVDGSLYKTH PQYSRRFHKTLRRLVPDSDVRFLLSESGSGKGAAMVTAVAYRLAEQHRQIEETLAHFHLTKDMLLEVKKR MRAEMELGLRKQTHNNAVVKMLPSFVRRTPDGTENGDFLALDLGGTNFRVLLVKIRSGKKRTVEMHNKIY AIPIEIMQGTGEELFDHIVSCISDFLDYMGIKGPRMPLGFTFSFPCQQTSLDAGILITWTKGFKATDCVG HDVVTLLRDAIKRREEFDLDVVAVVNDTVGTMMTCAYEEPTCEVGLIVGTGSNACYMEEMKNVEMVEGDQ GQMCINMEWGAFGDNGCLDDIRTHYDRLVDEYSLNAGKQRYEKMISGMYLGEIVRNILIDFTKKGFLFRG QISETLKTRGIFETKFLSQIESDRLALLQVRAILQQLGLNSTCDDSILVKTVCGVVSRRAAQLCGAGMAA VVDKIRENRGLDRLNVTVGVDGTLYKLHPHFSRIMHQTVKELSPKCNVSFLLSEDGSGKGAALITAVGVR LRTEASS

Query

and

Subject

BlastDB

BLAST em LINUX

• Download dos programas executáveis BLAST através do NCBI • Permite que o usuário monte

sua própria base de dados

específica para um projeto • Permite parametrização detalhada $> formatdb –i cog.fasta –p T –n COG $> blastall –p blastp –i hexokinase.fasta –d COG –e 10 –m 10 –o hexokinase.blast.output –F T –v 500 –b 250 –M BLOSUM62

Alinhamentos múltiplos

Prof. Dr. Francisco Prosdocimi

What is a multiple alignment?

conserved residues conservation profile secondary structure

Blocos conservados

DbClustal • Blocos conservados – Domínios funcionais – Sítios catalíticos de enzimas – Assinaturas de famílias gênicas

Alinhamentos múltiplos

• Problema altamente complexo • Teoria da complexidade de algoritmos – O valor de

O

• Problema NP-completo (NP-hard) – Aumentando o número de sequências (ou o tamanho das sequências), o aumento no tempo de computação sobe exponencialmente • Clustal, MAFFT, T-coffe, MUSCLE, DIALIGN

Alinhamentos múltiplos e homologia

Do alinhamento à filogenia

• Métodos fenéticos • Montagem da matrix de distância

Example in Clustalx :

distance between 2 sequences = 1 No. identical residues No. aligned residues Hbb_human Hbb_horse Hba_human Hba_horse Myg_phyca Glb5_petma Lgb2_lupla 1 2 3 4 5 6 7 .17

.59

.59

.77

.81

.87

1 .60

.59

.77

.82

.86

2 .13

.75

.73

.86

3 .75

.74

.88

4 .80

.93

5 .90

6 7 -

Produção da árvore

• • Método

fenético

– Não considera a evolução de cada caráter (coluna no alinhamento) – Produz uma árvore a partir de uma matriz de distância gerada ao considerar todo o conjunto de dados

Vizinhos mais próximos

– Neighbor-joining • Average neighbor • Nearest neighbor • Farthest neighbor .061

.015

4 .062

5 6 3 .442

.226

.219

.398

.389

.081

2 .084

.055

1 .065

Hbb_human Hbb_horse Hba_human Hba_horse Myg_phyca Glb5_petma Lgb2_lupla

Conclusões

• O alinhamento de sequências e as técnicas para implementá-lo estão entre as mais importantes tarefas da bioinformática • Existe uma limitação para a análise filogenética que vem do fato de os alinhamentos multiplos não serem rápidos ou ótimos • O bioinformata deve conhecer as diferentes técnicas de alinhamento e saber aplicá-las corretamente