Les peptides communs à plusieurs protéines: les vilains petits

Download Report

Transcript Les peptides communs à plusieurs protéines: les vilains petits

Les peptides communs à plusieurs protéines: les vilains
petits canards de la protéomique
Mélisande Blein-Nicolas
19 septembre 2014
Journée Bucoliques, les mathématiques?, INRA Jouy-en-Josas
1/35
1
Qu'est-ce que la protéomique ?
Dénitions
Champs d'étude de la protéomique
2
Un outil incontournable : la spectrométrie de masse
3
Estimer des abondances de protéine à partir des peptides
Les dicultés à prendre en compte
Les méthodes les plus couramment utilisées
4
Comment inclure les peptides communs ?
Développement d'un modèle
Implémentation du modèle dans un cadre bayésien
Evaluation des performances
5
Pour conclure...
6
Remerciements
2/35
Qu'est-ce que la protéomique ?
Dénitions
1
Qu'est-ce que la protéomique ?
Dénitions
Champs d'étude de la protéomique
2
Un outil incontournable : la spectrométrie de masse
3
Estimer des abondances de protéine à partir des peptides
Les dicultés à prendre en compte
Les méthodes les plus couramment utilisées
4
Comment inclure les peptides communs ?
Développement d'un modèle
Implémentation du modèle dans un cadre bayésien
Evaluation des performances
5
Pour conclure...
6
Remerciements
3/35
Qu'est-ce que la protéomique ?
Dénitions
Proteome et protéomique
PROTEOME : complément en PROTEines exprimées par un
genOME (Wilkins et al., 1995).
Protéomique : étude du protéome (abondance, modications,
interactions, localisation, structure et fonction des protéines)
4/35
Qu'est-ce que la protéomique ?
Champs d'étude de la protéomique
1
Qu'est-ce que la protéomique ?
Dénitions
Champs d'étude de la protéomique
2
Un outil incontournable : la spectrométrie de masse
3
Estimer des abondances de protéine à partir des peptides
Les dicultés à prendre en compte
Les méthodes les plus couramment utilisées
4
Comment inclure les peptides communs ?
Développement d'un modèle
Implémentation du modèle dans un cadre bayésien
Evaluation des performances
5
Pour conclure...
6
Remerciements
5/35
Qu'est-ce que la protéomique ?
Champs d'étude de la protéomique
La protéomique inventaire
Identier l'ensemble des protéines présentes dans un compartiment
donné pour :
ˆ
déterminer la structure primaire des gènes
ˆ
prouver expérimentalement l'expression et la traduction d'un gène
ˆ
localiser les protéines
ˆ
conrmer/découvrir des composants des complexes protéiques
ˆ
caractériser des modifs post-trad
ˆ
faire un bilan des fonctions exercées dans le compartiment étudié
6/35
Qu'est-ce que la protéomique ?
Champs d'étude de la protéomique
La protéomique comparative
Analyser les modications du protéome entre plusieurs conditions
génétiques ou environnementales pour :
ˆ
identier les protéines dont la quantité ou les modifs post-trad évoluent
ˆ
identier les voies métaboliques et les fonctions cellulaires aectées
ˆ
proposer des relations de cause à eet entre les variations du protéome
et les variations de caractères d'intérêt
7/35
Un outil incontournable : la spectrométrie de masse
1
Qu'est-ce que la protéomique ?
Dénitions
Champs d'étude de la protéomique
2
Un outil incontournable : la spectrométrie de masse
3
Estimer des abondances de protéine à partir des peptides
Les dicultés à prendre en compte
Les méthodes les plus couramment utilisées
4
Comment inclure les peptides communs ?
Développement d'un modèle
Implémentation du modèle dans un cadre bayésien
Evaluation des performances
5
Pour conclure...
6
Remerciements
8/35
Un outil incontournable : la spectrométrie de masse
Qu'est-ce que la spectrométrie de masse (MS) ?
Méthode d'identication des molécules présentes dans un échantillon à
partir de leur masse atomique ou moléculaire
9/35
Un outil incontournable : la spectrométrie de masse
Principe d'une analyse protéomique par LC-MS/MS
10/35
Un outil incontournable : la spectrométrie de masse
Traitement des données pour l'identication des protéines
Les données expérimentales acquises en MS2 sont confrontées aux
bases de données par un logiciel d'interrogation
11/35
Un outil incontournable : la spectrométrie de masse
Traitement des données pour la quantication des protéines
Spectral counting : nombre de spectres MS2 par protéine
12/35
Un outil incontournable : la spectrométrie de masse
Traitement des données pour la quantication des protéines
Spectral counting : nombre de spectres MS2 par protéine
Intégration des courants d'ions extraits (XIC) : aire sous les pics
du chromatogramme
12/35
Un outil incontournable : la spectrométrie de masse
Traitement des données pour la quantication des protéines
Spectral counting : nombre de spectres MS2 par protéine
Intégration des courants d'ions extraits (XIC) : aire sous les pics
du chromatogramme
ˆ
dénir et isoler les pics
ˆ
relier les infos de quanti (MS1) et d'identication (MS2)
ˆ
aligner les temps de rétention entre les échantillons
ˆ
estimer des abondances de protéine à partir des données peptidiques
12/35
Estimer des abondances de protéine à partir des peptides
Les dicultés à prendre en compte
1
Qu'est-ce que la protéomique ?
Dénitions
Champs d'étude de la protéomique
2
Un outil incontournable : la spectrométrie de masse
3
Estimer des abondances de protéine à partir des peptides
Les dicultés à prendre en compte
Les méthodes les plus couramment utilisées
4
Comment inclure les peptides communs ?
Développement d'un modèle
Implémentation du modèle dans un cadre bayésien
Evaluation des performances
5
Pour conclure...
6
Remerciements
13/35
Estimer des abondances de protéine à partir des peptides
Les dicultés à prendre en compte
L'eet peptide
Tous les peptides ne répondent pas de manière identique à l'ionisation :
Comment prendre en compte cet eet du peptide ?
14/35
Estimer des abondances de protéine à partir des peptides
Les dicultés à prendre en compte
Les peptides communs à plusieurs protéines
Issus de l'épissage alternatif ou des gènes dupliqués
Comment déconvoluer l'information portée par les peptides
communs ?
15/35
Estimer des abondances de protéine à partir des peptides
Les dicultés à prendre en compte
La taille et la structure des jeux de données
Gros jeux de données : x1000 protéines, x10000 peptides, x100
échantillons
Les jeux de données peuvent être très déséquilibrés :
ˆ
nombreuses données manquantes liées au seuil de détection du
spectromètre
ˆ
données parfois inexistantes (par exemple en cas de polymorphisme
génétique)
16/35
Estimer des abondances de protéine à partir des peptides
Les méthodes les plus couramment utilisées
1
Qu'est-ce que la protéomique ?
Dénitions
Champs d'étude de la protéomique
2
Un outil incontournable : la spectrométrie de masse
3
Estimer des abondances de protéine à partir des peptides
Les dicultés à prendre en compte
Les méthodes les plus couramment utilisées
4
Comment inclure les peptides communs ?
Développement d'un modèle
Implémentation du modèle dans un cadre bayésien
Evaluation des performances
5
Pour conclure...
6
Remerciements
17/35
Estimer des abondances de protéine à partir des peptides
Les méthodes les plus couramment utilisées
Les méthodes simples Pour chaque protéine dans chaque échantillon :
ˆ
somme ou moyenne des intensités des 3 peptides les plus abondants
ˆ
somme des intensités tous les peptides
ˆ
moyenne des rapports d'intensité des peptides entre deux conditions
Problèmes de ces méthodes :
ˆ
Pas de prise en compte de l'eet peptide
ˆ
Toutes les données ne sont pas exploitées (les peptides communs sont
supprimés)
ˆ
Quand on somme des intensités de peptides, on somme aussi les erreurs
18/35
Estimer des abondances de protéine à partir des peptides
Les méthodes les plus couramment utilisées
Les méthodes basées sur la modélisation statistique
Clough et al. 2009
Pas de modèle satisfaisant permettant de prendre en compte
l'information portée par les peptides communs à plusieurs protéines
19/35
Comment inclure les peptides communs ?
Développement d'un modèle
1
Qu'est-ce que la protéomique ?
Dénitions
Champs d'étude de la protéomique
2
Un outil incontournable : la spectrométrie de masse
3
Estimer des abondances de protéine à partir des peptides
Les dicultés à prendre en compte
Les méthodes les plus couramment utilisées
4
Comment inclure les peptides communs ?
Développement d'un modèle
Implémentation du modèle dans un cadre bayésien
Evaluation des performances
5
Pour conclure...
6
Remerciements
20/35
Comment inclure les peptides communs ?
Développement d'un modèle
Présentation du jeu de données
Objectif : analyser la diversité génétique du protéome des levures de la
fermentation alcoolique
9 S. cerevisiae et 6 S. uvarum en
Echantillons à 30% de dégagement de
condition oenologiques
CO2
3 réplicats indépendants, soit 45 échantillons
LC-MS/MS : 654 protéines identiées, 7146 peptides quantiés,
240866 observations
21/35
Comment inclure les peptides communs ?
Développement d'un modèle
Objectif de l'analyse statistique
Détecter les protéines dont l'abondance varie entre les souches :
Pkt
k
t
ˆ
Estimer
ˆ
Comparer les
ˆ
Si p-value signicative, il existe au moins deux souches t et t' telles que
Pkt 6= Pkt
= abondance de la protéine
dans la souche
Pk . par un test de comparaisons multiples
0
Rappel :
ˆ
ˆ
ˆ
ai = δik Pk
k
Ii = αi ai
P
et donc log (Ii ) = αi + log (
δik Pk )
P
k
22/35
Comment inclure les peptides communs ?
Développement d'un modèle
Modèle 1 : protéine par protéine, sans peptide commun
Pour chaque protéine k, on modélise :
log (I
ˆ βt
ˆ
ˆ
)=m+β +α +B +C +ε
t
= eet xe de la souche
m + βt = log (Pkt )
ˆ αi
ˆ
itr
= eet xe du peptide
i
r
tr
itr
t
i
Br ∼
r
2
Ctr ∼ N (0, σC ) = eet aléatoire de l'injection tr
N (0, σB2 ) = eet aléatoire du réplicat
ˆ εitr ∼ N (0, σε2 )
= erreur résiduelle
23/35
Comment inclure les peptides communs ?
Développement d'un modèle
Modèle 1 : protéine par protéine, sans peptide commun
Avantages : simple (facile à coder sous R) et rapide
Inconvénient : peu de données pour estimer les eets aléatoires
2
ˆ σB
ˆ
et
σC2
variables d'une protéine à une autre
risque de détecter des faux-positifs ou des faux-négatifs
24/35
Comment inclure les peptides communs ?
Développement d'un modèle
Modèle 1 : protéine par protéine, sans peptide commun
Avantages : simple (facile à coder sous R) et rapide
Inconvénient : peu de données pour estimer les eets aléatoires
2
ˆ σB
ˆ
et
σC2
variables d'une protéine à une autre
risque de détecter des faux-positifs ou des faux-négatifs
Mettre les eets aléatoires en eets xes ?
ˆ
augmente le nombre de paramètres à estimer
ˆ
augmente la variance de l'estimateur de
ˆ
perte de puissance = risque de ne pas détecter (faux-négatifs)
Pkt
24/35
Comment inclure les peptides communs ?
Développement d'un modèle
Modèle 2 : toutes les protéines ensemble, sans peptide
commun
Pour l'ensemble des protéines, on modélise :
log (I
ˆ βt
ˆ γkt
ˆ
ˆ
)=m+β +γ +α +B +C +ε
t
= eet xe de la souche
kt
= eet xe du peptide
r
i
t
= eet xe de l'interaction souche
m + βt + γkt = log (Pkt )
ˆ αi
ˆ
itr
t
tr
x protéine
itr
k
i
Br ∼
r
2
Ctr ∼ N (0, σC ) = eet aléatoire de l'injection tr
N (0, σB2 ) = eet aléatoire du réplicat
ˆ εitr ∼ N (0, σε2 )
= erreur résiduelle
25/35
Comment inclure les peptides communs ?
Développement d'un modèle
Modèle 2 : toutes les protéines ensemble, sans peptides
commun
Avantage : susamment de données pour estimer correctement la
variance des eets aléatoires
26/35
Comment inclure les peptides communs ?
Développement d'un modèle
Modèle 2 : toutes les protéines ensemble, sans peptides
commun
Avantage : susamment de données pour estimer correctement la
variance des eets aléatoires
Inconvénient : mise en oeuvre moyennement facile
ˆ
problème de sur-paramétrisation : ajout de contraintes sur les
paramètres, mettre l'eet peptide en aléatoire
log (Pkt ) = m + βt + γkt
ˆ
modication des contrastes pour obtenir
ˆ
Problème de mémoire sous R pour analyser le jeu de données entier :
couper le jeu de données en morceaux
26/35
Comment inclure les peptides communs ?
Développement d'un modèle
Modèle 3 : toutes les protéines ensemble, avec peptides
communs
Rappel modèle 2 : log (I ) = log (P ) + α + B + C + ε
itr
Généralisation : log (I ) = log (
itr
ˆ δik =
ˆ
ˆ
ˆ
ˆ
1 si
i ∈ k , 0 sinon
δ
ik
r
i
kt
P
P
kt
tr
itr
)+D +B +C +ε
i
r
tr
itr
k
Pkt = exp(θkt )
Di ∼ N (0, σD2 ) = eet aléatoire du peptide i
Br ∼ N (0, σB2 ) = eet aléatoire du réplicat r
Ctr ∼ N (0, σC2 ) = eet aléatoire de l'injection tr
ˆ εitr ∼ N (0, σε2 )
= erreur résiduelle
27/35
Comment inclure les peptides communs ?
Développement d'un modèle
Modèle 3 : toutes les protéines ensemble, avec peptides
communs
Avantage : permet de prendre en compte l'ensemble des peptides
Inconvient : estimation des paramètres diciles car modèle non-linéaire
28/35
Comment inclure les peptides communs ?
Implémentation du modèle dans un cadre bayésien
1
Qu'est-ce que la protéomique ?
Dénitions
Champs d'étude de la protéomique
2
Un outil incontournable : la spectrométrie de masse
3
Estimer des abondances de protéine à partir des peptides
Les dicultés à prendre en compte
Les méthodes les plus couramment utilisées
4
Comment inclure les peptides communs ?
Développement d'un modèle
Implémentation du modèle dans un cadre bayésien
Evaluation des performances
5
Pour conclure...
6
Remerciements
29/35
Comment inclure les peptides communs ?
Implémentation du modèle dans un cadre bayésien
Principe de l'inférence bayésienne
30/35
Comment inclure les peptides communs ?
Implémentation du modèle dans un cadre bayésien
Implémentation dans un cadre bayésien
31/35
Comment inclure les peptides communs ?
Evaluation des performances
1
Qu'est-ce que la protéomique ?
Dénitions
Champs d'étude de la protéomique
2
Un outil incontournable : la spectrométrie de masse
3
Estimer des abondances de protéine à partir des peptides
Les dicultés à prendre en compte
Les méthodes les plus couramment utilisées
4
Comment inclure les peptides communs ?
Développement d'un modèle
Implémentation du modèle dans un cadre bayésien
Evaluation des performances
5
Pour conclure...
6
Remerciements
32/35
Comment inclure les peptides communs ?
Evaluation des performances
Gains du modèle 3 par rapport au modèle 1
Blein-Nicolas et al. 2012
33/35
Conclusions
Pour conclure...
34/35
Remerciements
Remerciements
35/35