palindromes complémentaires

Download Report

Transcript palindromes complémentaires

IFT3295
Démonstration
16 novembre 2011
Arbres des suffixes
Plan
• Applications des arbres des suffixes
– Reconnaissance de sites de restriction
– Alignement de génomes complets
Enzymes de restriction
• Les enzymes sont des protéines qui catalysent
des réactions chimiques dans les cellules
• Certaines molécules d'ARN peuvent aussi
catalyser des réactions chimiques (ribozymes)
• Presque toutes les réactions chimiques se
produisant dans les cellules ont besoin
d'enzymes pour atteindre une vitesse
nécessaire à la survie
Enzymes de restriction
• Les enzymes de restriction, ou endonucléases
de restriction, permettent de couper des
molécules double brin d'ADN
• Chaque enzyme de restriction coupe l'ADN à un
site spécifique (site de restriction)
• Deux coupures sont faites par l'enzyme, c'est-àdire une sur chaque brin (pas nécessairement
au même endroit)
Enzymes de restriction
• On retrouve des enzymes de restriction chez les
bactéries
• Elles jouent un rôle dans la défense des
bactéries contre les virus  elles permettent de
couper l'ADN étranger
• L'ADN de la bactérie est méthylé afin de la
protéger de l'action de ses propres enzymes de
restriction
Enzymes de restriction
• Exemples :
EcoRI
BamHI
GAATTC
GGATCC
CTTAAG
CCTAGG
SmaI
HindIII
CCCGGG
AAGCTT
GGGCCC
TTCGAA
Enzymes de restriction
• Exemples :
EcoRI
Extrémités
cohésives
BamHI
GAATTC
GGATCC
CTTAAG
CCTAGG
SmaI
HindIII
CCCGGG
GGGCCC
Extrémités
franches
AAGCTT
TTCGAA
Enzymes de restriction
• Les enzymes de restriction sont des outils
utilisés abondamment en biochimie
– clonage de gènes
– production de protéines recombinantes
– clivage d'ADN avant de faire une électrophorèse sur
gel
– reconnaissance de SNPs
Enzymes de restriction
• Les enzymes de restriction sont des outils
utilisés abondamment en biochimie
– clonage de gènes
– production de protéines recombinantes
– clivage d'ADN avant de faire une électrophorèse sur
gel
– reconnaissance de SNPs
Enzymes de restriction
• Production de protéines recombinantes :
– Les protéines recombinantes sont des protéines
produites à partir d'ADN recombinant, c'est-à-dire de
l'ADN qui est une combinaison de séquences
provenant de différentes sources
– Puisque l'ADN de toutes les espèces possèdent les
même propriétés chimiques, il est possible de créer
de l'ADN recombinant en utilisant les enzymes de
restriction
Enzymes de restriction
• Production de protéines recombinantes :
– Les extrémités cohésives de molécules d'ADN clivées
par des enzymes de restriction peuvent être "recollées"
avec n'importe quelle autre molécule clivée par la
même enzyme
– On va souvent utiliser des bactéries comme usines de
production de protéines recombinantes
– Les bactéries possèdent des chromosomes circulaires
appelés "plasmides"
Enzymes de restriction
• Production de protéines recombinantes :
plasmide
Enzymes de restriction
• Production de protéines recombinantes :
plasmide
Enzymes de restriction
• Production de protéines recombinantes :
plasmide
Enzymes de restriction
• Production de protéines recombinantes :
gène étranger
plasmide
Enzymes de restriction
• Production de protéines recombinantes :
– Un bon exemple est celui de la production d'insuline
pour traiter le diabète
– Pendant longtemps, l'insuline était recueilli à partir de
pancréas de porcs ou de bovins
– Il est maintenant produit dans des bactéries (E. coli) ou
des levures et prochainement dans des plantes
Enzymes de restriction
• Les sites de restriction forment des palindromes
complémentaires
BamHI
GGATCC
CCTAGG
GGA
TCC
Enzymes de restriction
• Les sites de restriction forment des palindromes
complémentaires
BamHI
GGATCC
CCTAGG
GGA
TCC
complément inverse
GGA
Enzymes de restriction
• Les sites de restriction forment des palindromes
complémentaires
BamHI
GGATCC
CCTAGG
GGA
TCC
complément inverse
GGA
• Les palindromes complémentaires sont de
longueur paire
Reconnaissance de sites de restriction
• Le problème revient à identifier tous les
palindromes complémentaires maximaux
(puisque les autres palindromes seront
contenus à l'intérieur)
• Une sous-séquence s[i..j] d'une séquence s de
longueur n est un palindrome complémentaire
maximal si
– s[i..j] est un palindrome complémentaire et
– s[i-1] n'est pas complémentaire à s[j+1] OU si i = 1 et
j=n
Reconnaissance de sites de restriction
• Soit 2k, la longueur d'un palindrome, k est le
rayon du palindrome
• Le centre du palindrome se situe entre les
positions k et k+1 du palindrome
• Le nombre de centres possibles dans une
séquence de taille n est égal à n-1 (équivalent
au nombre total de palindromes maximaux
possibles)
Reconnaissance de sites de restriction
• Tous les palindromes complémentaires
maximaux peuvent être identifiés dans une
séquence d'ADN en temps linéaire en utilisant
un arbre des suffixes généralisé
Reconnaissance de sites de restriction
• Soit la séquence s et sr, la séquence
complément inverse de s
• On construit un arbre des suffixes généralisé
pour les séquences s et sr
• Prétraitement de l'arbre pour enregistrer les
profondeurs de "strings" et pour trouver les lca
en temps constant
Reconnaissance de sites de restriction
• Le rayon du palindrome complémentaire
maximal centré entre s[i] et s[i+1] est donnée
par la longueur du plus long préfixe entre suffi+1
de s et suffn-i+1 de sr
• Ceci équivaut à la longueur de string du nœud
lca((s, i+1), (sr, n-i+1)), qui peut être calculée en
temps constant grâce au prétraitement
Reconnaissance de sites de restriction
• Tous les palindromes complémentaires
maximaux sont identifiés en temps linéaire en
regardant tous les centres possibles
Reconnaissance de sites de restriction
• s = TAGAGCTCA, sr = TGAGCTCTA
S. Aluru. Handbook of Computational Molecular Biology. Chapman & Hall/CRC (2006)
Reconnaissance de sites de restriction
• s = TAGAGCTCA, sr = TGAGCTCTA
• Pour i = 5, lca((s, 6), (sr, 5)) = v
S. Aluru. Handbook of Computational Molecular Biology. Chapman & Hall/CRC (2006)
Reconnaissance de sites de restriction
• s = TAGAGCTCA, sr = TGAGCTCTA
• Pour i = 5, lca((s, 6), (sr, 5)) = v
S. Aluru. Handbook of Computational Molecular Biology. Chapman & Hall/CRC (2006)
Alignement de génomes complets
• Aligner des séquences complètes de génomes
est intéressant pour identifier les régions
conservées entre différentes espèces
• Étant donné que les séquences complètes sont
très grandes, des algorithmes efficaces doivent
exister pour réaliser un alignement global
rapidement
Alignement de génomes complets
• Le logiciel MUMmer utilise une approche basée
sur les arbres des suffixes pour aligner des
génomes complets
• MUMmer identifie d'abord les MUMs (maximal
unique matches)
Alignement de génomes complets
• Un MUM entre deux séquences s1 et s2 est une
paire de sous-séquences sans mismatch
s1[i..i+k] = s2[i'..i'+k] qui ne peut pas être
allongée dans aucune direction
• De plus, chaque MUM doit être unique, c'est-àdire qu'il doit se retrouver une seule fois dans s1
et dans s2
Alignement de génomes complets
• L'idée est qu'un long MUM fait probablement
partie de l'alignement optimal des deux
séquences
• Étapes de MUMmer :
1) Identification de tous les MUMs
2) Identification des plus longues séquences de MUMs
qui se retrouvent dans le même ordre dans les deux
séquences
3) Alignement des régions entre ces MUMs
Alignement de génomes complets
• Un arbre des suffixes généralisé contenant les
deux séquences complètes est utilisé pour
identifier les MUMs
Alignement de génomes complets
• Lcp(suffi1, suffi'2) est un MUM s'il est unique dans
les deux séquences et que s1[i-1] != s2[i'-1]
• Soit v, le nœud interne dont le chemin
correspond à Lcp(suffi1, suffi'2)
• Le MUM est unique si v ne possède que 2 fils
(un dans chaque séquence)
• Tous les nœuds internes correspondant à des
MUMs sont identifiés par un parcours de l'arbre
Alignement de génomes complets
• s1 = GATCG$1 et s2 = CTTCG$2
S. Aluru. Handbook of Computational Molecular Biology. Chapman & Hall/CRC (2006)
Alignement de génomes complets
• s1 = GATCG$1 et s2 = CTTCG$2
S. Aluru. Handbook of Computational Molecular Biology. Chapman & Hall/CRC (2006)