Questions sur l`interaction ADN-protéine

Download Report

Transcript Questions sur l`interaction ADN-protéine

1. L’ADN et l’information génétique
l’ADN
l’information génétique est contenue dans l’ADN
(ADN)
A
G
T
(ARN)
C
U
traduction
l’information génétique est organisée par triplets (codons)
le code génétique
1 triplet
= 1 codon
= 3 lettres
= 1 acide aminé
le code génétique est dégénéré : 43 = 64 > 20 !
le
gène
unité de l’information
génétique
gène
introns : non codants
exons : codants
le
gène
unité de l’information
génétique
gène
le génome
organisation de l’information
génétique
chez la bactérie :
Escherichia Coli
4938920 bps
4732 gènes
le génome
organisation de l’information
génétique
chez l’homme :
•3 milliards de pbs
•~20000 gènes
•< 2 % d’ADN codant !
codant
non codant
pseudogènes
séquences répétées
le génome
pourcent d’ADN non
codant et « complexité »
des organismes
quantité d’ADN codant en
fonction de la taille du génome
ADN codant et non codant
en résumé :
ADN « poubelle »
exons
introns
pourquoi autant d’ADN non codant ?
peut-on en comprendre le rôle ?
2. étudier les séquences d’ADN
approche « déterministe » :
comparaison entre séquences / alignement de séquences :
• recherche de gènes
• recherche de similarités entre espèces - évolution
• recherches de motifs répétés - régulation, organisation
approche statistique :
à la recherche de caractéristiques « globales » :
• différencier les régions codantes et non codantes
• rechercher un « ordre » dans le désordre apparent…
analyse statistiques des séquences
qu’est-ce qui différencie les séquences d’ADN
de simples séquences aléatoires ?
mesurer l’ordre dans l’ADN
1. information mutuelle
2. fonction de corrélation / densité spectrale de puissance
3. techniques basées sur la « marche ADN »
4. …
de la séquence symbolique à
une séquence numérique
choisir un code binaire : par exemple
double liaison A
hydrogène
T
triple liaison
hydrogène
ou
purines
G
C
A
G
T
pyrimidines
+1
C
-1
on peut donc étudier la
variable numérique binaire
n =  1
où n = position
on obtient :
n=1 2 3 4 5 6 7 8 9 10…
+1
A T C G G T C A T A…
         
n= +1 +1 -1 -1 -1 +1 -1 +1 +1 +1…
-1
le signal n (ADN)
signal aléatoire
signal déterministe
signal corrélé
3. fonction de corrélation et
densité spectrale de puissance (DSP)
T

xx()
Sxx( f ) 1/T
fonction de corrélation
soit (t) signal aléatoire fonction du temps t, stationnaire :
1. on peut définir la fonction de corrélation de (t)
  ( )   (t)     (t   )  
 ensemble
2. si « ergodique », on peut remplacer la moyenne d’ensemble
 par une moyenne sur le temps :
  ( )   (t 0  t)     (t 0  t   )  
t
0
chaque t0 initial considéré comme une nouvelle réalisation
fonction de corrélation
Signal temporel
Périodicités cachées
Signal musical (Strauss) :
La fonction de corrélation
présente de pics pour des
retards 
multiples du « tempo »
t (sec)
fonction de corrélation

fonction de corrélation
Signaux persistants : la fonction de corrélation décroît plus lentement pour des
signaux qui ont tendance à varier lentement
Signal temporel
fonction de corrélation
Une mesure de la « mémoire » du signal
(bruit blanc)
Signal « sans mémoire » : chaque valeur est indépendante de la précédente
b(t)
• b(t) signal stationnaire,
• b(t) = 0 (centré),
• bb() = ()

fonction de corrélation
d’où b2 = bb() = +

effet du bruit

densité spectrale de puissance (DSP)
3. on peut passer à la représentation en fréquence par
transformée
defla densité spectrale de puissance
de Fourier (TF) : on obtient
S ( f )  TF   ( )
4. Théorème de Wiener-Khintchine :

def

1
S ( f )  TF  ( )  lim TF  T (t)
T  T
T
où  (t)   (t) limitée à l’intérvalle [0, T]
2
5. On peut alors évaluer S( f ) directement à partir du signal :

estimateur de la DSP d’un signal réel :


1
S ( f ) 
TF  T (t)
T
2
ensemble
Fonction de corrélation et DSP
pic à la fréquence  1/T
1. périodicité « cachée » = T 
T

f
xx()

2. échelle de « mémoire » = a 
Sxx( f )
1/T
de
 1/a
 bande
a
 largeur
 ( ) d
0
largeur de bande
f

 () ~ exp(- /a)
exponentielle

S ( f ) ~ 1/( 1+(2  a f )2 )
lorentzienne
4. corrélation à longue portée
http://www.scholarpedia.org/article/1/f_noise
si l’échelle de mémoire est infinie (xx() n’est pas intégrable)
on parle de corrélation à longue portée.
Typiquement, loi de puissance :
1

lim   ( )  


 (échelle log)
S(f) (échelle log)

pente 1/
lim S ( f ) 
f 
0   1
0  1
) (échelle log)

corrélation à longue portée
1
f
  1 
pente 1/
f (échelle log)
5. corrélation et ADN
ADN : résultat 1 – périodicité 3
C(d)
périodicité dans la fonction de corrélation
positions n = 3i
positions n = 3i+1, 3i+2
d
lié à la structure en triplets (codons) du code génétique ;
mais comment ? pourquoi ?
résultat 2 – corrélation à longue portée
cytomégalovirus, 230000 pbs

(codant)
f=1/3
le résultat
semble
(variation de la méthode :
plutôt
construction de 4 sous-séquences
général…
0/1 pour A, T, C, G)
(non codant)
résultat 2 : DSP  1/f
échelle log-log : log(DSP)  - log(f)
R. F. Voss, PRL, 1992
résultat 1 : pic à f = 1/3
pour l’ADN codant
des résultats controversés :
pas de corrélation ?
(Stanley group, 1992-1995)
L’ADN codant est sans doute moins corrélé que le non codant
revenons à la fonction de corrélation
pour bien analyser les résultats obtenus :
C(d)
C(d)
séquence codante
positions n = 3i
positions n = 3i+1, 3i+2
d
d
comment évolue l’amplitude des pics en position 3i ?
on la reporte en échelle log : décroissance en d
corrélation longue portée pour « une base sur trois » ?
séquences codantes :
H calculé sur différentes échelles q
la dégénérescence du code laisse « passer »
un peu de corrélation longue portée
dégénérescence
la position 3
introns : H≈0.6
sur ladutroisième
codon,
du codon
libre,
position 3 du codon : H≈0.58 lettreplus
peut suivre
la contrainte
position 2 du codon : H≈0.55
« globale »
position 1 du codon : H≈0.55
Arnéodo group, 1995-1996
pourquoi une mémoire étendue ?
procaryotes (bactéries et archea)
4 600 000 bps  2 cm d’ADN
taille de la cellule 1 m
ratio = 5 10-5
ADN : un filament hautement compacté
pourquoi une mémoire étendue ?
eucaryotes :
CHROMATINE !
fibre de chromatine
DNA
noyau cellulaire
nucléosomes
nucléosomes
DNA
fibre de chromatine
chromatine
histones
boucles
Goodsell
parties verrouillées
parties transcrites
une structure fonctionnelle hautement organisée
d’autres images
un rôle pour les séquences non codantes
la corrélation à longue portée
indique
la présence d’un ordre global ;
les séquences non codantes
montrent toujours
une corrélation à longue portée

l’ADN « poubelle » participe à l’établissement d’un arrangement
fonctionnel de l’ADN dans le noyau/la cellule !
interprétation
•rôle de la fonction biologique :
corrélation longue portée :
codage d’une protéine :
en général,
reflet d’une contrainte
sur l’ordre global
de l’ADN
représente une
contrainte sur le choix
des bases, lié à la
bonne séquence d’a.a.
séquences non codantes
séquences codantes
soumises à deux contraintes :
peut-on les « simuler » ?
signal discret fonction de corrélation de n
n= 1 2
A T
 
n= +1 +1
3 4
C G
 
-1 -1
5 6 7 8 9 10 11…
G T C A T A C…
      
-1 +1 -1 +1 +1 +1 -1…
n signal aléatoire discret
fonction de la position n plutôt que du temps t :
si <n>=0 (autrement, on soustrait la moyenne)
alors la fonction de corrélation s’écrit
C(d)  n nd
1 N
  n nd
N n1
d = distance entre 2 sites le long de la séquence
moyenne d’ensemble  moyenne sur n
 fonction de corrélation de n
en pratique :
sur un ordinateur, le signal est toujours discret !
z(t)  (z1, z2, z3, z4,… zN) = z
pour nous, le signal est intrinsèquement discret (pas=1), car
c’est la séquence.
sous scilab, il donc d’utiliser la fonction :
corr : corr(z, dmax) = fonction de corrélation de x,
en fonction de la distance d,
pour d = 0, 1, 2,… dmax-1
sous scilab, corr soustrait automatiquement la moyenne de z
 DSP de n – 1. calculer la TF :
Signal
x(t)
Spectre
|X(f)|
t
f
Signal échantillonné ∆t  Spectre périodique de période ƒe =
1/∆t
Transformée de Fourier Rapide :
FFT
xk
tk
Signal echantillonné :
xk = k t
de 0 à Te = N ∆T
-fe
0
fe/2
FFT du signal :
ƒn = n ƒ
de 0 à ƒe = N ∆ƒ
f
 DSP de n – 2. déduire la DSP:
FFT = transformée de Fourier Rapide
sous scilab :
fft : fft(z, -1) = fft(z) = TF de z
donne la TF pour f = 0, ∆f, 2∆f,… fe-1


1
Wiener-Khintchine : estimateur DSP = TF  T (t)
T
2
ensemble
d’où |fft(z)|2 / N ≈ DSP de z

sous scilab, commencer par soustraire la moyenne de z
fin