Lisa ALLALI Bio-Informatique formelle M1 MPRI 2004/2005 Présentation de la thèse de Julien ALLALI soutenue le 23 décembre 2004 à Marne la Vallée Modélisation et.
Download ReportTranscript Lisa ALLALI Bio-Informatique formelle M1 MPRI 2004/2005 Présentation de la thèse de Julien ALLALI soutenue le 23 décembre 2004 à Marne la Vallée Modélisation et.
Lisa ALLALI Bio-Informatique formelle M1 MPRI 2004/2005 Présentation de la thèse de Julien ALLALI soutenue le 23 décembre 2004 à Marne la Vallée
Modélisation et comparaison de la structure secondaire de l’ARN
Sous la direction de Maxime Crochemore et Marie France Sagot
Présentation de la structure des ARN
Presentation
Les ARN sont des séquences mono-brin de nucléotides. Dans la cellule où ils exercent de nombreux rôles, ils ne restent pas sous forme linéaire. Un ARN se
replie
sur lui-même et crée des liaisons entre certains de ses nucléotides. Les bases qui ne sont pas liées sont dites “
non appariées
”.
Les 3 formes de l’ARN sont la structure
primaire
: séquence linéaire de nucléotides la structure
secondaire
la structure
tertiaire
: disposition des nucléotides sur le plan : disposition des nucléotides dans l’espace La conformation
spaciale
de l’ARN est
déterminée
et directement
liée
à la
fonction
de l’ARN dans la cellule. La structure tertiaire apparait donc naturellement comme la plus adaptée pour étudier la fonction d’un ARN. Cependant il est admis que 2 ARN ayant une
structure secondaire proche
auront une
fonction moléculaire
relativement
proche
.
La structure secondaire Les éléments de la structure secondaire
Une
hélice
est une suite contiguë de liaisons entre 2 nucléotides
La structure secondaire Les éléments de la structure secondaire
Une
hélice
est une suite contiguë de liaisons entre 2 nucléotides Une
boucle terminale
non appariées formant une boucle à l’extremité d’une hélice est une suite de bases
La structure secondaire Les éléments de la structure secondaire
Une
hélice
est une suite contiguë de liaisons entre 2 nucléotides Une
boucle terminale
non appariées formant une boucle à l’extremité d’une hélice est une suite de bases Une
boucle multiple
d’au moins 3 hélices est le point de rencontre
La structure secondaire Les éléments de la structure secondaire
Une
hélice
est une suite contiguë de liaisons entre 2 nucléotides Une
boucle terminale
non appariées formant une boucle à l’extremité d’une hélice est une suite de bases Une
boucle multiple
d’au moins 3 hélices est le point de rencontre Une
boucle interne
relie 2 hélices
La structure secondaire Les éléments de la structure secondaire
Une
hélice
est une suite contiguë de liaisons entre 2 nucléotides Une
boucle terminale
non appariées formant une boucle à l’extremité d’une hélice est une suite de bases Une
boucle multiple
d’au moins 3 hélices est le point de rencontre Une
boucle interne
relie 2 hélices Un
renflement
est une “demie” boucle interne
La structure secondaire Les éléments de la structure secondaire
Une
hélice
est une suite contiguë de liaisons entre 2 nucléotides Une
boucle terminale
non appariées formant une boucle à l’extremité d’une hélice est une suite de bases Une
boucle multiple
d’au moins 3 hélices est le point de rencontre Une
boucle interne
relie 2 hélices Un
renflement
est une “demie” boucle interne Une
tige
dénote une suite d’hélice(s)/boucle(s) interne(s)/(renflement(s)
La structure tertiare – repliement de l’ARN
Questions
Ce qui nous intéresse ici est la
comparaison
des structures secondaires de l’ARN pour chercher à prédire la fonction d’un ARN inconnu grâce à sa ressemblance avec un ARN connu. Mais
que signifie “être proche”
pour deux ARN ? Comment
automatiser
cette reconnaissance de ressemblance ? C’est ce que nous allons essayer de comprendre pour trouver une réponse satisfaisante à la question de la comparaison entre 2 ARN.
Modélisations existantes Vers une formalisation satisfaisante
Séquences annotées par des arcs
Séquences de type imbriqué représentant un ARN de transfert Structure
Secondaire
Structure
primaire
Séquences annotées par des arcs
Séquences de type imbriqué représentant un ARN de transfert Structure
Secondaire
Structure
primaire
Séquence annotée modélisant la structure secondaire
Séquences annotées par des arcs
Les informations
conservées
par les séquences anotées sont aussi bien la suite de
nucléotides
composent l’ARN que sa
structure
(helices boucles etc...).
qui Toutes ces informations sont-elles nécessaires ?
Il apparait que c’est la
structure
, plus que la sequence de nucléotides qui
détermine la fonction
d’un ARN (même si ces deux aspects ne peuvent être totalement séparés). Ainsi on peut imaginer de nouvelles représentations des ARN qui s’intéresseraient de façon plus accentuée à la structure pour elle-même.
Arbres enracinés et ordonnés
La structure secondaire se prête assez naturellement à une formalisation par des arbres. Voici les
étapes d’un exemple de construction d’un arbre codant la structure secondaire d’un ARN
. La question qui se pose étant quel est le raffinement de l’information qui nous interesse ?
Arbres enracinés et ordonnés
La structure secondaire se prête assez naturellement à une formalisation par des arbres. Voici les étapes d’un exemple de construction d’un arbre codant la structure secondaire d’un ARN. La question qui se pose étant quel est le raffinement de l’information qui nous interesse ?
Arbres enracinés et ordonnés
La structure secondaire se prête assez naturellement à une formalisation par des arbres. Voici les étapes d’un exemple de construction d’un arbre codant la structure secondaire d’un ARN. La question qui se pose étant quel est le raffinement de l’information qui nous interesse ?
Arbres enracinés et ordonnés
La structure secondaire se prête assez naturellement à une formalisation par des arbres. Voici les étapes d’un exemple de construction d’un arbre codant la structure secondaire d’un ARN. La question qui se pose étant quel est le raffinement de l’information qui nous interesse ?
Arbres enracinés et ordonnés
La structure secondaire se prête assez naturellement à une formalisation par des arbres. Voici les étapes d’un exemple de construction d’un arbre codant la structure secondaire d’un ARN. La question qui se pose étant quel est le raffinement de l’information qui nous interesse ?
Arbres enracinés et ordonnés
Deux codages possibles avec des granularités différentes : Un arc de l’arbre code pour une hélice ou une tige.
Les boucles multiples sont les noeuds internes rouges Les boucles terminales sont les feuilles bleues Les noeuds internes rouges sont les paires de bases appariées. Les feuilles bleues sont les bases non appariées.
Arbres enracinés et ordonnés
Voici un éventail de granularisations possibles pour la représentation en arbre des structures secondaire de l’ARN.
Arbres enracinés et ordonnés
Voici un éventail de granularisation possibles pour la représentation en arbre des structures secondaire de l’ARN.
Arbres enracinés et ordonnés
Voici un éventail de granularisation possibles pour la représentation en arbre des structures secondaire de l’ARN.
Arbres enracinés et ordonnés
Voici un éventail de granularisation possibles pour la représentation en arbre des structures secondaire de l’ARN.
Arbres enracinés et ordonnés
Voici un éventail de granularisation possibles pour la représentation en arbre des structures secondaire de l’ARN.
Arbres enracinés et ordonnés
Voici un éventail de granularisation possibles pour la représentation en arbre des structures secondaire de l’ARN.
Arbres enracinés et ordonnés
Voici un éventail de granularisation possibles pour la représentation en arbre des structures secondaire de l’ARN.
Arbres enracinés et ordonnés
Voici un éventail de granularisation possibles pour la représentation en arbre des structures secondaire de l’ARN.
Comparaison de structures
Comparaison – distance d’édition
La
distance d’édition
entre deux séquences d’ARN se calcule par la somme des coûts des opérations successives d’
insertion
,
délétion
et
substitution
nécessaires au passage d’une structure à l’autre. Ces opérations sont réversibles.
La distance d’édition entre deux séquences est donc strictement équivalente au calcul d’
alignement de deux séquences
.
Comparaison – distance d’édition
La
distance d’édition
entre deux séquences d’ARN se calcule par la somme des coûts des opérations successives d’
insertion
,
délétion
et
substitution
nécessaires au passage d’une structure à l’autre. Ces opérations sont réversibles.
La distance d’édition entre deux séquences est donc strictement équivalente au calcul d’
alignement de deux séquences
. On peut
transposer
ces opérations pour obtenir un calcul d’édition entre deux arbres quelconques (et en particulier au cas des arbres représentant des ARN Substitution noeud noir/jaune Insertion/délétion du noeud jaune
Comparaison – distance d’édition
L’édition d’abres enracinés, ordonnés et étiquetés est pertinente pour la comparaison des ARN car elle permet de
prendre en compte de manière réaliste
comme
la perte de certaines bases
des
phénomènes biologiques connus
(délétion), ou encore les
mutations
(chagement de base par une autre) mis en formalisé par les substitutions. Néanmoins, si on en reste à cette distance d’édition, d’autres réalités biologiques ne sont
pas prises en compte
, et des rapprochements “
non souhaités
” peuvent avoir lieu.
Comparaison d’ARN – distance d’édition
Un exemple d’ “erreur” de rapprochement. On appellera ce phénomène la
dispersion.
Comparaison d’ARN – distance d’édition
Les lacunes de cette distance d’éditions :
Exemple 1 :
Comparaison d’ARN – distance d’édition Exemple 2 :
2 nouvelles opérations d’édition
2 nouvelles opérations d’édition La fusion de noeuds
2 nouvelles opérations d’édition La fusion de noeuds La fusion d’arcs
Ces deux opérations conservent bien
l’ordre des fils
possibles dans l’évolution d’un ARN) (essentiel pour exprimer des opérations
Vers la bonne solution...
Ces deux nouvelles opérations d’édition (et leur inverse) permettent d’associer un nombre quelconque d’éléments d’un arbre à un ou plusieurs éléments de l’arbre auquel il est comparé. Néanmoins, pour continuer d’exprimer des “réalité biologiques”, il est évident que des
restrictions doivent être apportées
à ces opérations : on ne peut pas fusionner n’importe quelles parties ensembles (ce qui reviendrait à associer des éléments de façon arbitraire, hors on veut toujours
exprimer des phénomènes existants
. Il serait donc intéressant d’ajouter une information supplémentaire aux arcs et aux noeuds de notre arbre. Il faudrait savoir pour chacun à quel
élément structural COMMUN
il appartient, et ne permettre les fusions que d’éléments appartenant à cette
même structure
.
Comment définir cette appartenance à un élément structural commun? Comment conserver cette information ?
Conservation de la structure globale MiGaL
M
ult
i
ple
G
r
a
ph
L
ayer
MiGaL – cas général
Avant de nous intéresser aux RNA-MiGaL, décrivons la structure MiGaL dans le cas général. Il s’agit d’un ensemble de graphes G et d’un ensemble de raffinements R.
Chaque graphe Gi (Si , Ai ) de G est composé d'un ensemble Si de sommets et un ensemble Ai d'arcs. Le raffinement
Ri
est une application de Si dans P(Si+1 ) c'est à dire qu'un sommet de Si a pour image un sous-ensemble de Si+1 . L'application réciproque est une application surjective appelée abstraction qui à tout sommet de Si+1 associe un sommet de Si . On peut ainsi définir une structure MiGaL par M(G,A), l'ensemble des graphes de M ainsi que des abstractions entre ces graphes.
MiGaL – cas général
Avant de nous intéresser aux RNA-MiGaL, décrivons la structure MiGaL dans le cas général. Il s’agit d’un ensemble de graphes G et d’un ensemble de rafinements R.
Chaque graphe Gi (Si , Ai ) de G est composé d'un ensemble Si de sommets et un ensemble Ai d'arcs. Le raffinement
Ri
est une application de Si dans P(Si+1 ) c'est à dire qu'un sommet de Si a pour image un sous-ensemble de Si+1 . L'application réciproque est une application surjective appelée abstraction qui à tout sommet de Si+1 associe un sommet de Si . On peut ainsi définir une structure MiGaL par M(G,A), l'ensemble des graphes de M ainsi que des abstractions entre ces graphes. G0 G1 G2
RNA-MiGaL
Grâce à MiGaL, nous avons non seulement la possibilité de modéliser la structure secondaire d’un ARN selon des
granularités croissantes
, mais surtout nous avons la possibilité de
transmettre sur plusieurs niveaux
ces informations grâces aux applications de raffinement ! On définit un RNA-MiGaL comme une structure de type MiGaL composée de 4 arbres : T0 : réseau de boucles multiples
RNA-MiGaL
Grâce à MiGaL, nous avons non seulement la possibilité de modéliser la structure secondaire d’un ARN selon des
granularités croissantes
, mais surtout nous avons la possibilité de
transmettre sur plusieurs niveaux
ces informations grâces aux applications de raffinement ! On définit un RNA-MiGaL comme une structure de type MiGaL composée de 4 arbres : T0 : réseau de boucles multiples T1 : réseau de tiges, boucles multiples et boucles terminales
RNA-MiGaL
Grâce à MiGaL, nous avons non seulement la possibilité de modéliser la structure secondaire d’un ARN selon des
granularités croissantes
, mais surtout nous avons la possibilité de
transmettre sur plusieurs niveaux
ces informations grâces aux applications de raffinement ! On définit un RNA-MiGaL comme une structure de type MiGaL composée de 4 arbres : T0 : réseau de boucles multiples T1 : réseau de tiges, boucles multiples et boucles terminales T2 : les arcs codent les hélices. Un noeud peut coder pour une boucle multiple, une boucle interne, un renflement, une boucle terminale.
RNA-MiGaL
Grâce à MiGaL, nous avons non seulement la possibilité de modéliser la structure secondaire d’un ARN selon des
granularités croissantes
, mais surtout nous avons la possibilité de
transmettre sur plusieurs niveaux
ces informations grâces aux applications de raffinement ! On définit un RNA-MiGaL comme une structure de type MiGaL composée de 4 arbres : T0 : réseau de boucles multiples T1 : réseau de tiges, boucles multiples et boucles terminales T2 : les arcs codent les hélices. Un noeud peut coder pour une boucle multiple, une boucle interne, un renflement, une boucle terminale. T3 : un noeud interne représente une baire de base, les feuilles les bases libres.
RNA-MiGaL
Les applications de raffinement : R0 : Les noeuds correspondant aux
boucles multiples
pour ces
mêmes boucles multiples
sont mis en relation avec les noeuds codant dans T0 . Un noeud correspondant à une
boucle terminale
est mis en relation avec le
même noeud que son père
(qui code forcément pour une boucle multiple). R1 : Lorsque le noeud de T2 représente une
boucle terminale ou une boucle multiple
, il est mis en relation avec le noeud correspondant au
même élément
dans T1 . Si le noeud correspond à une
boucle interne ou un renflement
, celui-ci est mis en relation avec le noeud dont l'arc qui
pointe
dessus code pour la
tige à laquelle appartient
la boucle interne ou le renflement. R2 : A chaque
noeud interne
de T3 on associe le noeud de T2 tel que l’arc
pointant
sur ce noeud code pour
l'hélice dont fait partie cette paire de base
. A chaque
feuille
base libre, R2 associe le noeud de T2 codant pour
l’élément structural
de T3 codant pour une dont fait partie cette base.
RNA-MiGaL - illustration
Contamination des couleurs
Contamination des couleurs
Contamination des couleurs
RNA-MiGaL – Comparaison
RNA-MiGaL – Coloration Layer 0
T0 : réseau de boucles multiples
RNA-MiGaL – Coloration Layer 1
T1 : réseau de tiges, boucles multiples et boucles terminales
RNA-MiGaL – Coloration Layer 2
T2 : hélices, boucles multiples, boucles internes, renflements et boucles terminales
RNA-MiGaL – Coloration Layer 3
Les problèmes corrigés
RNA-MiGaL – Les problèmes corrigés La dispersion
RNA-MiGaL – Les problèmes corrigés
Ici il y aurait une fusion
RNA-MiGaL – Un cas particulier non géré
Commençons par remarquer que deux ARN peuvent avoir une fonction proche, mais une struture générale
globalement assez différente
. Néanmoins ils ont en commun une
petite zone très fortement conservée
. Il est immédiat que notre procédure sera aveugle à cette ressemblance puisqu’il s’agit de chercher une
structure commune globale
. Il y a donc de fortes chances pour que ces éléments essentiels mais
locaux
soient fusionnés ou même délétés si l’ARN global n’a pas la même conformation général...
Néanmoins, nous ne considérerons pas ceci comme un inconvénient.
Il y a déjà d’autres outils efficaces pour repérer les motifs fortement conservés, ce n’est pas dans cette catégorie de que se situe MiGaL.
M
i
G
a
L
: les améliorations à venir
RNA-MiGaL – Comparaison des sous-arbres
D’après les résultats obtenus, lors de la comparaison (et donc coloration) de deux ARN, 5% du temps de calcul suffit à comparer les niveaux 0, 1 et 2 du RNA-MiGaL . Les 95% restants sont pour la comparaison du niveau 3. Or, deux “morceaux” de la structure secondaire ne sont
mis en relation
que s’ils appartiennent à un
même élément structural
, autrement dit s’ils sont de la
même couleur
. On peut donc imaginer d’
optimiser fortement le calcul
en comparant non plus les deux arbres de niveau 3 globalement mais de faire les
comparaisons de chaque sous-arbre de même couleur
(de bien plus petite taille). On pense pouvoir gagner un facteur 100 en temps de calcul. Cependant, un problème peut apparaitre.
RNA-MiGaL – Comparaison des sous-arbres
RNA-MiGaL – Comparaison des sous-arbres
RNA-MiGaL – Comparaison des sous-arbres
RNA-MiGaL – Comparaison des sous-arbres
RNA-MiGaL – Comparaison des sous-arbres
RNA-MiGaL – Comparaison des sous-arbres
RNA-MiGaL – Comparaison des sous-arbres
RNA-MiGaL – Comparaison des sous-arbres Résolution du problème
Ce problème trouve une bonne solution avec un système d’
ancrage
simple.
Il résoud le probleme de la contrainte de respect de l’ordre des fils.
En effet, lorsqu’on compare 2 sous-arbres de même couleur, on garde une information sur le positionnement des fils de couleurs différentes. Comme la permutation d’arc n’est pas autorisée, soit il faut respecter l’ordre, soit il faut déleter le sous arbre qui correspond à l’ancre qui pose problème.
Conclusion
Les premiers résultats obtenus avec les structures RNAMiGaL sont très satisfaisants. En effet, la modélisation par niveau, outre son intérêt pour la comparaison, semble très utile pour appréhender les régions ayant des structures communes. Le niveau 0 nous permet de visualiser rapidement les différentes parties d'une structure, les niveaux suivants fournissant plus de détails.
MiGaL présente un atout capital :
il ne se fige pas dans une seule façon d'appréhender une structure secondaire
. L'implémentation de l'algorithme de comparaison utilisant le partage de couleurs devrait sans doute faire de RNAMiGaL la méthode de comparaison de structures secondaires la plus rapide existante.
Pour plus d’informations
Pour plus d’informations L.I.A.F.A Laboratoire d'Informatique Algorithmique, Fondements et Applications
Groupe de travail
Bioinformatique et Algorithmique
Date:
2005-03-15/2005-03-15 [16H00]
Auteur:
Julien Allali (IGM)
Titre:
Comparaison de structures secondaires d'ARN [email protected] http://www-igm.univ-mlv.fr/~allali/
Ne fait pas partie de la presentation. Pour des questions eventuellement
Pour une idée de la structure tertiaire
Les pseudos noeuds sont les liaisons entre des nucléotides non appariés, ils donnent une indication sur la structure tertiaire (en 3 dimensions) de l’ARN
Séquences annotées par des arcs
Le cas général ne convient pas. Une base ne peut appartenir à plusieurs liaisons. De même deux arcs croisés sont quelque chose qui n’existe pas dans la structure secondaire Remarquons néanmoins que le type croisé laisse la possibilité de représenter les pseudo-noeuds.