Transcript Cours 4

Prédiction de la structure 3-D des
protéines
Introduction
Swissprot
Protein Data Bank
+/- 200.000 séquences
+/- 30.000 structures
Analyse de séquence
 Recherche de fonction
 Analyse d’hydrophobicité (PO, TM, H amphip.)
 Prédiction de sites d’interactions
 Prédiction de sites antigéniques
Analyse de structure 3D
 Prédiction de structures secondaires
 Etude des interactions (3D / 4D)
…
 Etude du site actif
 Docking
 Dynamique, modifications
 Etude des interactions avec une membrane
 Ingénierie des protéines
 Etude du folding
…
Détermination expérimentale de la structure d’une protéine
Détermination expérimentale coûteuse
et pas toujours possible…
Prédiction de structures 3D
• Modélisation par homologie :
Identification d’une protéine de structure
connue de séquence homologue
• Fold recognition ou threading :
Se base également sur la connaissance de
structures 3D de protéines. On essaie de
déterminer le fold de la protéine.
• Ab initio :
Construction de modèles 3D
sur base de la séquence par
simulation des forces qui gouvernent le
repliement pour trouver la structure de
plus basse énergie.
Principe de la modélisation par homologie
Structures mieux conservées que séquences !
Si  homologie entre séquences
=>  homologie entre structures
=> prédiction modèle 3D par homologie possible
target
template
Principe de la modélisation par homologie
Protéine homologue dans la PDB ???
Si identité > 30%
=> OK
Si 20% < identité < 30 % => + difficile / risqué
Si identité < 20%
=> +++ difficile / impossible
Estimation :
28% des séquences ont au moins 25% ID avec
une protéine de structure connue (PDB)
Etapes de la prédiction du modèle 3D
1.
Identification d’une protéine de structure connue
de séquence homologue (ou plusieurs !)
2.
Alignement Target / Template(s)
3.
Construction du modèle 3D
4.
Optimisation du modèle 3D
5.
Validation du modèle 3D
! Étapes 1 et 2 déterminantes !
1. Recherche de séquence(s) homologue(s) dans la PDB
Cfr. cours sur les méthodes d’alignement.
Utilisation d’un algorithme pour chercher des protéines de structure
connue qui ont une séquence homologue à notre séquence target et qui
pourront ainsi être utilisées comme template.
Alignements
4. Comparaison de séquences : les alignements
= une des premières étapes dans l’analyse des séquences
= comparaison de séquences dans le but de repérer les endroits où se
trouvent des régions identiques ou très similaires entre des séquences et
d’en déduire celles qui sont significatives et qui correspondent à un sens
biologique de celles qui sont observées par hasard.
Séquence1
Séquence2
LRTMPDSYGWPLVGPLSDRLDYFFFQITRAEKNIPPTFGN
..***.
*** ** .. * .
* . .*
* . .*
* .*
*
**
IKTMPERYGSEIISPGDEGWLYLYHNIEHFQKYLPIYLGN
% identité = 30%
% similarité = 57%
similarité  homologie
 homologie si ancêtre commun
 homologie mesurée par similarité
Alignements
Objectif :
Révéler des informations importantes sur
• la structure,
• la fonction
• l’évolution
de ma(mes) séquence(s) d’intérêt
Quelqu'un a t-il déjà rencontré ce type de séquences ?
Si oui, je vais pouvoir avoir rapidement accès à toutes
ses connaissances !!
Alignements : principes
Principe des alignements
Durant l’évolution,
• substitutions de résidus
 Subsitution homologue
 Substitution non homologue
• insertions / délétions de résidus
Séquence1
Séquence2
Séquence1
Séquence2
LRTMPDSYGWPLVGPSDRDLYLFHQITRAEKNIPPTFGNF
..***. ** .. * *
* .
IKTMPERYGSEIISPGDEKELYLYHNIEHFQKYLPIYLGN
LRTMPDSYGWPLVGPSD-RDLYLFHQITRAEKNIPPTFGNF
..***. ** .. * * ..***.*.* . .* .*
**
IKTMPERYGSEIISPGDEKELYLYHNIEHFQKYLPIYLGNReprésente une insertion-délétion (indel ou gap)
=> Calcul d’un score pour évaluer la qualité de l’alignement
Alignements : principes
Détermination d’un score
Utilisation de matrice de substitution
Le score élémentaire (se) =
la valeur donnée directement dans la matrice
Calcul d’un score
score global = la somme des scores élémentaires
Score =  se
Introduction de gap (avec pénalité)
• Pénalité pour l’insertion d’un gap (x)
• Pénalité pour l’extension d’un gap (y) (svt x = 10 y)
P = coût global du gap de longueur L
P = x + yL
Score =  se -  P
Alignements : principes
Matrices de substitution
 Identité
 Homologie
*Similarités physico-chimiques
*Matrice d’évolution (probabilité qu’un A.A. soit muté
en un autre après un temps d’évolution donné) (PAM,
Blosum)
*Matrice basée sur la comparaison des séquences
(Gonnet)
Alignements : principes
The PAM250 scoring matrix
A
R
N
D
C
Q
E
G
H
I
L
K
M
F
P
S
T
W
Y
V
A
2
-2
0
0
-2
0
0
1
-1
-1
-2
-1
-1
-4
1
1
1
-6
-3
0
R
N
D
C
Q
E
G
H
I
L
K
M
F
P
S
T
W
Y
V
6
0
-1
-4
1
-1
-3
2
-2
-3
3
0
-4
0
0
-1
2
-4
-2
2
2
-4
1
1
0
2
-2
-3
1
-2
-4
-1
1
0
-4
-2
-2
4
-5
2
3
1
1
-2
-4
0
-3
-6
-1
0
0
-7
-4
-2
4
-5
-5
-3
-3
-2
-6
-5
-5
-4
-3
0
-2
-8
0
-2
4
2
-1
3
-2
-2
1
-1
-5
0
-1
-1
-5
-4
-2
4
0
1
-2
-3
0
-2
-5
-1
0
0
-7
-4
-2
5
-2
-3
-4
-2
-3
-5
-1
1
0
-7
-5
-1
6
-2
-2
0
-2
-2
0
-1
-1
-3
0
-2
5
2
-2
2
1
-2
-1
0
-5
-1
4
6
-3
4
2
-3
-3
-2
-2
-1
2
5
0
-5
-1
0
0
-3
-4
-2
6
0
-2
-2
-1
-4
-2
2
9
-5
-3
-2
0
7
-1
6
1
0
-6
-5
-1
3
1
-2
-3
-1
3
-5
-3
0
17
0
-6
10
2
4
Alignements : principes
Matrices protéiques utilisées
• Pam 120
• Pam 250
• blossum 50
• blossum 62
• blossum 80
• Gonnet matrix
Le choix d'une matrice protéique
Pas de consensus, mais ce qui est généralement reconnu...
• Matrices Blosum > matrices Pam
• Matrice Blosum62 = la meilleure pour la détection de la majorité des similarités protéiques faibles.
• Matrice Blosum45 = la meilleure pour la détection de la majorité des similarités protéiques faibles et
longues.
Alignements : principe
Alignement global  alignement local
Alignements : évaluation
!!! ce critère doit être relié
• à la longueur de la similitude
• au nombre d’insertion introduite
Généralement reconnu :
Des séquences protéiques de 100 aa ou plus possédant au moins
25% d’identité entre elle ont certainement un ancêtre commun.
On peut douter d’un alignement s’il nécessite plus d’une insertion en
moyenne pour 20 acides aminés.
Alignements : évaluation
E-value
E = Y Z K e-S
s = score authentique
Y = longueur de la séquence
Z = taille de la banque
K et  = constante
E = Probabilité d'observer au hasard ce score à travers la banque de
séquences considérée. Plus la E-value est faible, plus l'alignement est
significatif.
Pour les programmes d’alignements suivants, on considère que :
Fasta
Blast
E-value
conclusion
> 0.01
séquences homologues
1-10
similarité plus lointaine
E-Value
Conclusion
< e-100
match exact (même gène, même espèce)
e-100...e-50
gènes quasimment identiques
(allèles, mutations, espèces voisines)
e-50...0.1
relation plus lointaines
> 0.1
séquenes en général inintéressantes
Alignements : type
Type d’alignement
• Alignement entre une séquence et une banque
• Fasta
• Blast
• Alignement entre deux séquences = alignement pairé
• SIM
• Alignement entre plusieurs séquences = alignement multiple
• ClustalW
• Match-box
• Dialign 2
2. Alignement des séquences target / template
Si un ou plusieurs template ont été identifiés, il faut générer un
alignement entre les séquences target et template.
Questions :
• Quel(s) algorithme(s) utiliser ?
• Quels paramètres utiliser ?
• Comment juger de la pertinence des résultats ?
• Comment améliorer l’alignement ?
2. Alignement des séquences target / template
• Quel(s) algorithme(s) utiliser ?
- Clustal, MatchBox,…
- comparaisons et combinaisons possibles
- alignement structural si plusieurs templates
• Quels paramètres utiliser ?
- en fonction des cas…
• Comment juger de la pertinence des résultats ?
- % ID, % homologie, gaps et positions
- alignement de résidus particuliers
- Homologie HCA
- Structures secondaires,…
• Comment améliorer l’alignement ?
- cfr. ci-dessus
3. Construction du modèle 3-D
- séquence Target
- structure Template
- alignement Target/Template
 Construction d’un modèle 3D
4. Optimisation du modèle 3-D
 Optimisation de la géométrie
par minimisation énergétique
5. Validation du modèle 3-D
 Calcul de paramètres pour
juger de la validité du modèle
 Confrontation à des données
expérimentales
Modeller
- séquence Target
- structure Template
- alignement
 modèle 3D
Comment ?
=> Contraintes spatiales
= fonction de densité
de probabilité (pdf)
Contraintes :
- basées sur l’alignement
- stéréochimiques
- utilisateur éventuelles
Principe de développement de Modeller
Utilisation d’une base de données de protéines de structure connue
correspondant à des protéines homologues réparties en familles.
Cette base de donnée sert à déterminer :
- les paramètres (caractéristiques) relevants à utiliser lors de la prédiction
- comment utiliser ces paramètres
Les paramètres relevants sont déterminés par des méthodes statistiques
(sans à priori).
Une fois les paramètres relevants déterminés, la base de données est
utilisée pour déterminer les fonctions de densité de probabilité qui
décrivent le lien entre les paramètres.
Contraintes basées sur l’alignement
Notion de « caractéristique »
= paramètre
= propriété associée à un élément simple
ou relation entre plusieurs éléments
= relative à un résidu, à plusieurs résidus,
à une protéine, ou à deux séquences
Exemples :
acide aminé, accessibilité au solvant dans la
structure, distance entre deux C, résolution de la
structure, identité entre séquences,…
 Définition de 21 caractéristiques
1
r
Amino acid residue type
2
f
Main-chain dihedral angle f
3
y
Main-chain dihedral angle y
4
t
Secondary structure class of a residue
5
M
Main-chain conformation class of a residue
6

Fractional content of residues in the main-chain conformation class A
7
ci
Side-chain dihedral angle ci, i = 1, 2, 3, 4
8
ci
Side-chain dihedral angle ci class, i = 1, 2, 3, 4
9
a
Residue solvant accessibility
10
a
Average accessibility of two residues in one protein
11
s
Residue neighbourhood difference between two proteins
12
s
Average residue neighbourhood difference between two proteins
13
i
Fractional sequence identity between two proteins
14
d
C-C distance
15
Dd
16
h
17
Dh
18
b
Average residue Biso (atomic isotropic temperature factor)
19
R
Resolution of X-ray analysis
20
g
Distance of a residue from a gap in alignement
21
g
Average distance of a residue from a gap
Difference between two C-C distances in two proteins
Main-chain N-O distance
Difference between two main-chain N-O distances in two proteins
Contraintes basées sur l’alignement
Qu’est-ce qu’une contrainte ?
Contrainte = fonction (pdf) qui établit une relation
entre différentes caractéristiques
Formulation des contraintes ?
1. Quantification de l’association entre les caractéristiques
caractéristiques dépendantes ou indépendantes ?
2. Définition d’une fonction mathématique
expression de la contrainte = pdf
Formulation des contraintes ?
Banque de 17 familles de protéines de structure connue
= 80 protéines alignées
Table multidimensionnelle des fréquences relatives
observées pour la caractéristique x en fonction des
caractéristiques a, b, c,…
caractéristiques dépendantes ou indépendantes ?
Tests statistiques pour mesurer la dépendance
de x par rapport à a, b, c,…
Contraintes basées sur l’alignement
Résultat :
 4 types de contraintes sont définies :
- sur les distances C-C
- sur les distances O-N (main-chain)
- sur la conformation de la chaîne principale
- sur la conformation des chaînes latérales
Exemple :
Contrainte sur distance C- C dans Target exprimée
sour forme de fonction de densité de probabilité
(pdf)…
=> probabilité que dist(C- C) = x dépend de
- distance entre C équivalents dans Template
- accessibilité des C équivalents dans Template
- homologie de séquence Target/Template
- distance moyenne aux gaps dans l’alignement
Comment combiner les contraintes des
caractéristiques pour la molécule ?
pdfs des caractéristiques => pdf moléculaire
« Variable Target Function Approach »
 pondération des pdfs des caractéristiques au cours de
la recherche de la structure de plus grande probabilité
Contraintes locales (en terme de séquence) => Contraintes globales
Evaluation de Modeller
- Choix de la structure Template !
- Qualité de la structure Template !
- Qualité de l’homologie !
- Qualité de l’alignement !
 Résidus enfouis mieux prédits que résidus accessibles
 Zones de faible homologie moins bien prédites
Swiss Model & Swiss PDB Viewer
Serveur de modélisation par homologie automatisée accessible à l’adresse :
http://swissmodel.expasy.org/
ou via Swiss PDB Viewer (Deep View)
Modeller  Swiss Model
Modeller :
L’entièreté de la structure de la protéine est modélisée en utilisant des
contraintes dérivées des structures templates.
Swiss Model :
La prédiction de la structure de la protéine se base sur un découpage
de la protéine en des régions conservées et des régions variables qui
sont modélisées séparément.
=> assemblage de fragments basés sur les structures templates.
Swiss Model : méthode
1. Identification de fragments
de structure conservée
2. Construction du cœur du modèle :
- Position moyenne des atomes du
backbone du cœur des templates avec
pondération en fonction de la similarité
séquence target / template
- Les régions non conservées (boucles)
sont laissées pour plus tard…
Swiss Model : méthode
2. Construction du cœur du modèle
3. Modélisation des boucles :
- recherche de fragments compatibles
dans une banque de donnée de boucles
(Loop-database)
- reconstruction ab initio pour les
boucles manquantes
Swiss Model : méthode
3. Modélisation des boucles
4. Positionnement des chaînes latérales
On recherche la conformation la plus
probable pour chaque chaîne latérale en
utilisant :
- les structures homologues
- des banques de rotamères
- des critères énergétiques
Swiss Model : méthode
4. Positionnement des chaînes latérales
5. Minimisation énergétique
- régularisation de la géométrie
(longueurs de liaisons et angles)
- suppression des conflits stériques
Prédiction de structures 3D
• Modélisation par homologie :
Identification d’une protéine de structure
connue de séquence homologue
• Fold recognition ou threading :
Se base également sur la connaissance de
structures 3D de protéines. On essaie de
déterminer le fold de la protéine.
• Ab initio :
Construction de modèles 3D
sur base de la séquence par
simulation des forces qui gouvernent le
repliement pour trouver la structure de
plus basse énergie.
FOLD
=
Type de repliement
Certaines protéines (même nonhomologues) adoptent le même
fold.
La PDB regroupe environ
30.000 structures, ce qui fait
environ 4.000 folds.
Fold recognition
 On essaie de prédire le fold compatible avec la séquence de la
protéine sans tenir compte de l’homologie de séquence
Méthode :
1.
Identification du template (fold de la protéine)
2.
Alignement Target / Template(s)
3.
Construction du modèle 3D
4.
Optimisation du modèle 3D
5.
Validation du modèle 3D
Idem que pour
modélisation par
homologie
• On impose différents folds à la séquence
• On calcule un score pour mesurer l’adéquation structure  séquence
• On optimise l’alignement pour la structure ayant le meilleur score
• On effectue une analyse statistique des résultats
Validation des structures 3D
 Comparaison des modèles prédits
 Comparaison au(x) Template(s)
 Stéréochimie acceptable ? (Procheck)
- conflits stériques
- longueurs de liaison, angles de valence,…
- carte de Ramachandran
-…
 Mesure de l’adéquation entre la structure et la séquence
 Confrontation à des résultats expérimentaux
…
Comparaison de structures
3 modèles prédits
par Modeller
Stéréochimie (Procheck)
Stéréochimie (Procheck)