pptx - WordPress.com

Download Report

Transcript pptx - WordPress.com

Statistiques pour la Biologie Intégrative [groupe SIB]
Une étude comparée de listes de gènes différentiels
générées par séquençage haut-débit [454 Roche] et
micro-réseaux d’ADN [Agilent]
G. Guernec1, J. Montfort1, A. Lecam1, R. Reinhart2, P. Prunet1, Y. Guiguen1, P.Y Rescan1, D. Power3
1
2
INRA UR1037 SCRIBE, Campus de Beaulieu, 35000 - Rennes, FRANCE
Max Planck Institute for Molecular Genetics, htpt group, Ihnestr. 63, 14195 - Berlin, ALLEMAGNE
3 Universidade do Algarve, Campus de Gambelas, 8005-139, Faro, PORTUGAL
V2: Rennes – Groupe SIB – le 19 avril 2011
V1: Versailles – Rencontres Bio-informaticiens et Statisticiens de l’INRA- le 25 mars 2011
Octobre 2009 : Acquisition du premier jeu de données de comptage généré par
technologie de séquençage haut débit … à l’INRA Scribe
… Travaux inclus dans le projet Aquagenome 2008
Questionnement légitime des biologistes :
« Qu’en est-il de la fiabilité des résultats obtenus à partir de ces
nouveaux supports émergents? »
… Report à la bibliographie :

Marioni & Al, 2008 [1] / Comparaison [Illumina] vs [Affymetrix]

Qu’en est-il avec la technologie 454 [Roche] ?
… Vise à répondre à une question type de transcriptomique :
« Recherche des gènes actifs dans le muscle à un stade de développement donné chez la
truite arc en ciel »
 Analyse différentielle sur les transcrits d’ARN
- 2 stades de développement : Larvaire [J] vs Adulte [B]
Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011
Détails du protocole expérimental
 Bonne gestion et prise en charge des données issues de microréseaux d’ADN par le plateau
transcriptomique du Scribe.
Mise en place d’une étude comparative entre une technologie microréseaux [Agilent] et
une technologie de séquençage haut-débit [454 Roche Titanium]
Connaissances a priori
 Analyses préalables en microarrays et biblio. : 2 stades très marqués chez le muscle
 Planification expérimentale en microarrays : 5 répétitions par condition [Agilent monocouleur]
 … fixe le nombre de répétitions (nombre de chemins) pour le RNA seq (454 -peu
d’informations)
Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011
Les grandes étapes d’une analyse de séquençage haut- débit …
…GTGCCCGATCTCGATCAGGTAATCGTATATTAAAGTGCCCGATCTCGATCAGGT…
Départ : Constitution d’une banque d’ADNc pour une espèce donnée en 4 étapes
1) Fragmenter l’ADNc d’un génome en plusieurs milliers (milliards) de petits morceaux
2) Lire la séquence de chaque petit fragment (read) (Détection par fluorescence : Sanger)
PB : Les séquenceurs automatiques ne donnent pas tjs des lectures exactes des séquences
Le taux d’erreur dépend:
-De la pureté et de l’homogénéïté des échantillons d’ADN initiaux
-Séquence spécifique des paires de bases dans l’échantillon d’ADN
Solution : Multiples lectures indépendantes (10*) pour chaque pb du génôme
Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011
Les grandes étapes d’une analyse de séquençage haut- débit …
3) Faire coïncider par informatique, les fragments où les séquences identiques :
Alignement (Mapping) des séquences (Tophat1.2…)
Zoom sur l’alignement de 2 séquences : Cas de figure possible
AGTGCCCGATTATA
[0 mismatch]
AGTACCCGATTATA
[1 mismatch]
AGTACCCGACTATA
[2 mismatchs]
AGTGCCCG-TTATA
TATATTACAGTGCCCGATTATATTAAGTG
… 0, 1 ou 2 mismatches tolérés
4) Assemblage des lectures (cufflinks…) ayant des séquences chevauchantes:
Théorie du contigage
- Compare chaque séquence avec chacune des autres séquences
- Génère une liste des régions ayant certains critères de similarités de séquences
Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011
Les grandes étapes d’une analyse de séquençage haut- débit …
Zoom sur la théorie du contigage
Couverture
5
4
3
2
1
0
Contig ou consensus
R
E
A
D
S
Exemple de couverture d’un contig …
Remarque : « L’obtention d’une séquence consensus par assemblage des contigs est ici
une préoccupation de second ordre »
Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011
Les grandes étapes d’une analyse de séquençage haut- débit …
Les principaux supports
Support
Average Read
Length
Run Time (Day)
GB / run
Roche 454
330
0.35
0.45
Illumina Solexa GA II
36 à 100
4
18
Applied Biosystems Solid 3
50
7
30
Michael Metker. Nature ReviewsGenetics, 2010 [3]
Définitions :
1) « Un run (réalisation d’un processus complet par la machine) produit un grand nombre
de lectures (reads) correspondant à des séquences d’ADN ou d’ARN de l’espèce étudiée. La
capacité de la machine se mesure en nombre total de bases séquencées »
2) Library size : nombre total de reads alignés pour un échantillon donné
Problèmes associés à l’assemblage :
1) Faible couverture
2) Erreurs de séquençage
3) Séquences répétées
Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011
Détails du protocole expérimental
Muscle pool – Stade Larvaire (J)
Muscle – Stade Adulte (B)
Technologie 454 Roche
Technologie micro-réseaux Agilent
 Séquençage en simultané
de millions de petits
fragments d’ADN
(330 pb de moyenne)
 Technique de F. Sanger
utilisée en parallèle
Chaque échantillon séquencé
sur 1 des 10 pistes
 55793 contigs disponibles
Plate-forme GENOTOUL, Toulouse
 Désigné par Salem & Al, 2008
[4*44K]
 Oligonucléotides de 60 mers
obtenus à partir de processus de
synthèse
 45220 sondes incluant 37394
oligos uniques (+6409 oligos
dupliqués aléatoirement)
Plateau transcriptomique Scribe, Rennes
Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011
Le jeu de données de comptage généré [454]
 Aucun contrôle possible des variabilités engendrées par les étapes d’alignement et d’assemblage
Comparaison directe des données d’expression (agilent) et de comptage (454) générés
Stade J (*5)
Stade B (*5)
Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011
Descriptif des données d’expression de micro-réseaux
Boxplot des log(intensités) normalisées
Départ : 37454 sondes différentes (oligos + contrôles)
5
0
 Suppression des contrôles
Log2(Intensity)
 Etape de filtrages classiques (Agilent) en 3 parties :
- uniformité du signal
- intensité du spot > sign. intensité BG
- intensité < seuil de saturation
+ Règle de décision / sonde
J level
10
B level
-5
Nouveau : 26496 sondes conservées (72%)
Descriptive statistics
Spearman’s correlation
Coefficient [CI 95%]
Average percentage of
log2(intensity)>5 [sd]
Global
B level
J level
0.879 [0.816 – 0.942]
0.955 [0.940 – 0.969]
0.993 [0.990 – 0.996]
5.52 [0.37]
5.49 [0.52]
7.58 [0.73]
ArrayJ6
ArrayJ5
ArrayJ4
ArrayJ3
ArrayJ2
ArrayB6
ArrayB5
ArrayB4
ArrayB3
ArrayB2
 Normalisation par la médiane des 10 échantillons
Gamme dynamique plus importante au stade larvaire
Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011
Descriptif données de comptage [séquençage 454]
Départ : 55793 contigs
Nombre total de lectures : 1.069.535 reads (compte-tenue de la qté d’ARN de départ)
Depth Subgroups
0
1–4
5 – 20
> 20
Global [%]
19382 [34.7]
26610 [47.7]
6964 [12.5]
2837 [5.1]
B level [%]
37302 [66.9]
14474 [25.9]
2895 [5.2]
1122 [2.0]
J level [%]
26054 [46.7]
22617 [40.5]
5103 [9.1]
2016 [3.6]
Remarques :
1) « Près de 35% des contigs comptent 0 lecture à chacune des 10 pistes étudiées et ne sont donc
pas conservés pour la suite de l’étude »
2) 24592 contigs (>67%) comptent 0 lecture à un des 2 stades [contigs spécifiques]
Problème lors de l’estimation des Fold Changes : FC = Jest / Best  0 ? … ou inversement ….
Nouveau : 36411 contigs
Evaluation de la variabilité globale et intra - conditions
 Elaboration d’un score /20 d’estimation de la qualité des répétitions biologiques (ie inter-runs)
 20 tests exact de Fisher (loi hypergéométrique) avec une erreur de 1% (+ ajustement Bonferroni)
- 5 runs « stade larvaire » = 10 tests « runs 2 à 2 »
Pour un gène … - 5 runs « stade adulte » = 10 tests « runs 2 à 2 »
Plus le score est faible plus la répétabilité inter-runs est bonne
Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011
Evaluation de la variabilité globale et intra – conditions
Départ : 36411 contigs
Nombre total de lectures : 1.069.535 reads (compte-tenue de la qté d’ARN de départ)
Evaluation of the potential
Global [%]
lanes’ effect (/20)
0
8067 [22.2]
1–5
25439 [69.9]
6 – 15
2897 [8.0]
≥ 16
8 [<10-1]
B level [%]
J level [%]
24527 [67.4]
6018 [16.5]
5832 [16.0]
34 [0.1]
15036 [41.3]
9412 [25.8]
11946 [32.8]
17 [<10-1]
Remarques :
1) « 92% des contigs testés ont une répétabilité globale bonne voire excellente »
2) On observe une répétabilité inter-runs plus homogène au stade adulte qu’au stade larvaire
Mise en place de l’étude comparative …
… A partir de 2 fichiers de même dimension
Recherche de la correspondance oligos <-> contigs à partir d’un fichier d’annotations swissprot
1) Suppression des oligos agilent pour lesquels il n’y a pas de correspondance
2) Conservation des oligos pour laquelle la correspondance est unique
Final : Etude comparative à partir de 2 fichiers de 7010 gènes / identifiant unique
Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011
Normalisation des données de comptage (N=7010)
 Etude comparative proposée par [Marioni & Al. ,2008] : PAS de normalisation des données
de comptage
 Depuis : « Importance de la normalisation sur le résultat final » [Bullard et al, 2010] [2]
 Choix de la technique de normalisation ? ….. Encore flou …….
Démarche proposée :
1) Ajout d’un 1 à l’ensemble des reads (cellules du fichier) : Pour s’affranchir du pb des
0s (cf estimation des Fold Changes)
2) Ajustement par le total des reads sur le run :
X ij 
'
X ij
N
* Cste
j
Xij(k) : Nbr de reads gène i / échantillon (run) j / condition k
Nj(k) : Production totale reads sur run j (library size) / condition k
3) Choix de la constante : Cste = max(Nj(k)) …. Et arrondis …. Pourquoi ?
Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011
Effets de la normalisation des données de comptage (N=7010)
Evaluation of the potential
lanes’ effect (Score /10)
0
1-5
≥6
Total
B state
J state
Before [%]
After [%]
Before [%]
After [%]
4868 [69.4]
6886 [98.2]
2768 [39.5]
6868 [98.0]
2075 [29.6]
102 [1.5]
4072 [58.1]
120 [1.7]
67 [1.0]
22 [0.3]
170 [2.4]
22 [0.3]
7010 [100.0] 7010 [100.0] 7010 [100.0] 7010 [100.0]
Remarques :
1) Variabilité inter – runs reste plus importante au stade J avec
N = 7010
2) Amélioration significative de la répétabilité après
normalisation (tests de Mac Némar 5%)
1
0
3) … Semble contradictoire avec les résultats de microarrays :
Répétabilité entre les échantillons globalement meilleure
au stade J
2
3
Global Standard Deviance
B
J
Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011
Descriptifs et comparaisons (N=7010)
4)
Gamme dynamique plus importante au stade J (idem microarrays)
Number of contigs with more than 4 reads
B state
J State
5)
Run1
515
1037
Run3
424
1351
Run4
491
1596
Run5
567
1042
La corrélation intra-groupe reste globalement très forte en microarrays
Coefficient of correlation (Spearman)
Supports by levels
J [95% CI]
B [95% CI]
RNA - Sequencing
0.461 [0.451 – 0.470] 0.436 [0.423 – 0.449]
Agilent technology 0.994 [0.993 – 0.995] 0.964 [0.960 – 0.969]
*: unequals subgroups because of ex-aecquos
6)
Run2
503
892
Number of reads by better quartiles
1 (1977)* 2 – 3 (1850) 4 – 8 (1485) > 8 (1698)
J
B
J
B
J
B
J
B
0.05 0.17 0.09 0.20 0.14 0.22 0.70 0.64
0.99 0.96 0.99 0.96 0.99 0.97 0.99 0.98
Elle est d’autant plus forte que les gènes observés comptent beaucoup de lectures
Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011
Analyse différentielle – Démarche proposée
Les analyses se font gène par gène puis gestion des tests multiples par correction FDR
… Pour les micro-réseaux
tests limma (G. K. Smyth – BioConductor)
… Pour le séquençage 454
 Régression de Poisson [contrainte forte : E(Y)=VAR(Y)=λ] :
« Le nombre de lectures observées pour une piste et un contig donné est représenté par la
variable Y de paramètre λ = (λJ; λB) telle que :
P (Y  y i Stade  J ) 
Avec :
e
J
J
yi!
yi
P (Y  y i Stade  B ) 
log( ˆ )   0   1 *  [ stade  J ]
et
 Estimation des Fold Changes (max. de vraisemblance) :
e
B
B
yi
yi!
i=1, .., 5
FC
J /B

ˆ J
ˆ B
 Le problème de la surdispersion : …Biais d’optimisme possible sur les p-values
Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011
Analyse différentielle – Démarche proposée
… Pour le séquençage 454
 Détection de la surdispersion : test de chi2 de Pearson
5
stat 

k 1
2
(Y k  ˆ J )

ˆ

J
10

k 6
2
(Y k  ˆ B )
2
~ 9
ˆ
B
256 modèles / 7010 en surdispersion
 Recours à la régression négative binômiale : Inclusion d’un terme de bruit …
E (Y )  
var( Y )    
2
/k
 Test du rapport de vraisemblance pour déterminer la significativité de la variable « stade »
« Sous H0: La statistique de test suit une loi de chi2 à 1 ddl »
Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011
Analyse différentielle – Résultats
N= 7010 - 1% FDR
RNA Sequencing (436)
108
Agilent Technology (4600)
328
4272
2302
Remarques :
Comment expliquer les divergences des listes de gènes
obtenues à partir de ces 2 supports ?
1) Proportion importante de gènes différentiels en microarrays (plus de 50%)
2) … spécifiques aux données de microarrays. Pourquoi ?
Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011
Analyse différentielle – Une explication des divergences …
 En supposant que la répétabilité inter –runs est parfaite : Sommation des
reads intra-conditions
Exemple : gène X -> 0 0 1 1 1 (reads / run : stade J)
J
Gène X
B
00 111 45455
Gène X
J
B
3
23
∑
TOTAL
TOTAL
546812
∑
4 5 4 5 5 (stade B)
Tableau de contingence 2*2
Nbr reads
Stade J
Stade B
Total
Gène X
3
23
26
Pas gène X
546809
528413
1075222
Total
546812
528436
1075248
528436
 Cadre classique : test exact de Fisher 1% (loi hypergéométrique)
H0 : Prop. Estimée (stadeJ) = Prop. Population (stade J)
H 0 : PROP ( POP J )  546812
1075248
 IC 99 % ( PROP ( ECH
Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011
J
))
Analyse différentielle – Une explication des divergences …
 Intervalles de confiance (99%) des proportions relatives à toutes les combinaisons possibles pour
chacun des 7010 gènes
 Exemple ci-dessous : 2 gènes comptant 95 (à gauche) et 4 lectures (à droite) au total
Depth = 4
2
Possible depths for the J group
60
99% CI
0
0
20
1
40
Possible depths for the J group
3
80
4
Depth = 95
0.0
0.2
0.4
0.6
Possible Probabilities
0.8
1.0
0.0
0.2
0.4
0.6
0.8
1.0
Possible Probabilities
Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011
Visualisation ordonnée des graphes
« On ne peut conclure qu’un gène est différentiel dès lors qu’il est associé à moins de 5
lectures au total » -> Manque de puissance
Analyse différentielle – Reprise des diagrammes
RNA Sequencing (436)
108
Agilent Technology (4600)
328
RNA Sequencing (426)
136
4272
Agilent Technology (1850)
390
2302
1460
695
 On constate une baisse très nette du nombre de gènes différentiels « spécifiques »
microarrays : Près de 3000 gènes différentiels [Agilent] n’ont pas bénéficié d’une
couverture suffisante pour sortir différentiels en RNAseq …
 Quelle interprétation pour les 1460 gènes différentiels restants ?
Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011
Analyse différentielle – Une interprétation des divergences …
Nouveau zoom sur la répétabilité inter – runs :
Venn ’s group I
N
< 5 reads (%*)
Genes in overlap
RNA sequencing only
Agilent only
Not Differential
TOTAL
328
108
4272
1620
7010
0
0
2755 (64.5)
1132 (69.9)
3887 (55.4)
Venn ’s group II
N
< 5 reads (%)
Genes in overlap
RNA sequencing only
Agilent only
Not Differential
TOTAL
390
136
1460
695
2681
0
0
0
0
0
≥ 5 reads (%**)
Lane’ score = 0 Lane’ score ≥ 1
158 (48.2)
170 (51.8)
44 (40.7)
64 (59.3)
307 (20.2)
1210 (79.8)
268 (23.7)
864 (76.3)
777 (25.2)
2308 (74.8)
≥ 5 reads (%)
Lane’ score = 0 Lane’ score ≥ 1
186 (47.7)
204 (52.3)
55 (40.4)
81 (59.6)
281 (19.2)
1179 (80.8)
114 (16.4)
581 (83.6)
636 (23.7)
2045 (76.3)
Remarques :
1) Les gènes différentiels en microréseaux spécifiquement ont une variabilité inter-runs
significativement plus importante que dans les autres groupes
2) Evocation d’un problème de l’adéquation du modèle aux données …
Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011
Analyse différentielle – Comparaison des Fold Changes
10
Spearman's correlation coefficient = 0.39
5
1) On retrouve la caractéristique principale
de la comparaison Affymetrix <-> Agilent
0
Spearman’ s coefficient by subgroups
Subgroups
N
Coefficient
> 67 reads
219
0.75
≤ 67 reads
217
0.40
No differential
6574
0.36
Total
7010
0.39
-5
RNA seq
log2-Fold Change
Remarques :
Fold Change
-10
>67 reads
<67 reads
No differential
-10
-5
0
5
10
« The set of differentially expressed genes
that show the strongest correlation (…)
seems to be those that are mapped by
many reads »
[ J.C Marioni (Genome Research -2008) ]
Agilent
log2-Fold Change
2) Proportion conséquente de fold changes atypiques (changement de signes)
Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011
Analyse différentielle – Interprétation des autres groupes spécifiques
Proportion des Fold Changes
atypiques en fonction su seuil
Proportion des gènes spécifiquement
différentiels en séquençage en fonction du seuil
100
100
55
72
102
142
213
328
475
154
173
209
259
328
436
585
475
80
80
328
213
60
60
%
%
142
102
72
40
40
38
20
64
55
104
20
21
5
9
2
0
0
1e-7
1e-6
1e-5
1e-4
Threshold
1e-3
1e-2
5e-2
1e-7
1e-6
1e-5
1e-4
1e-3
1e-2
5e-2
Threshold
Remarques :
1) La proportion des fold changes « atypiques » diminue avec le seuil de test
2) Les p-values [microarray] des gènes spécifiques « RNA seq» restent en bonne partie
voisine du seuil choisi
Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011
Analyse différentielle – Influence de la taille des contigs ?
 Répartition de l’ensemble des contigs de départ en fonction de leurs tailles (nombre de
bases de nucléotides)
Length of transcripts by quartiles
[N= 55793]
Min
515
Q1
503
Median
424
Q3
491
Max
567
 Répartition des effectifs des groupes de gènes différentiels (%) par taille de transcrits
Length of transcripts by quartiles
Venn ’s group II
[N= 2681]
]<1005[
[1005-1285]
[1286-1606]
]>1606[
Genes in overlap
146 (37.4)
90 (23.1)
88 (22.6)
66 (16.9)
390
RNA sequencing only
54 (39.7)
22 (16.2)
29 (21.3)
31 (22.8)
136
Agilent only
337 (23.1)
384 (26.3)
350 (24.0)
389 (26.6)
1460
Not differential
135 (19.4)
173 (24.9)
203 (29.2)
184 (26.5)
695
TOTAL
Remarque(s) :
« On observe une légère tendance mais pas d’effets notables de la taille des transcrits
sur l’expression des contigs »
Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011
Analyse différentielle – Influence des répétitions biologiques en 454 ?
 Remarque 1: « Dérive actuelle » - Ne séquencer qu’un échantillon d’ARN par
condition puis tests exacts de Fisher et corrections FDR
Quel est le pouvoir de généralisation de résultats ainsi obtenus ?
 Remarque 2: A- t’on besoin d’autant de répétitions biologiques en 454 qu’en Agilent
pour obtenir des listes de gènes différentielles quasi - similaires ?
Principe
Approcher la liste de gènes différentiels obtenue par micro-réseau en faisant varier le
nombre de réplicats biologiques (runs) du 454
Venn ’s group II [N= 2681]
Number of 454’
samples
compared
Differentially
expressed genes
with RNAseq
Overlap with
genes called
from array
Correlation of FC
between count
and array data
2 vs 2
306
232
0.43
3 vs 3
313
235
0.46
4 vs 4
407
303
0.51
5 vs 5
526
390
0.56
Remarque(s) : « Amélioration notable de l’intersection et des FC »
Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011
Analyse différentielle – Comparaison des normalisations proposées pour le 454
Panorama des normalisations existantes (04/2011)
Total read Count normalization (TC)
 Hypothèse : Comptages proportionnels au niveau d’expression
et à la profondeur de séquençage
 Plus la profondeur de la librairie est importante, plus le
comptage associé au transcrit est grand (indépendamment de la
taille du transcrit et du niveau d’expression)
X ij
sˆ j
; sˆ j  N
j
Adjusted Total read Count normalization (MAX)
 Hypothèse : Augmentation proportionnel du nombre de
comptages par gène pour suggérer une couverture suffisante par
gène
X ij
sˆ j
; sˆ j 
N
sˆ j
; sˆ j 
DESEQ normalization (Anders & Huber, 2010) (DESEQ) [6]
 Implémentation package DESEQ
 Xij~NB(μij,σ2ij)
 μij= qij(k)*sj
…avec qij(k) : Concentration « vraie » gène i /échantillon j
sˆ j  median
j
X ij
i
max( N j )
median
1
n

j
n
(  X i )
1
n
 1
Single Quantile Normalization (Bullard & al, 2010) (MED, UQ) [2]
 Hypothèse : Nombre total de reads dépend surtout de qqs
contigs fortement exprimés
X ij
Full Quantile normalization (Bolstad & Al, 2002) (FQ) [4]
 Equivalent « normalisation par quantile » en microréseaux
 Implémentation limma 3.6.9 [5]
 Hypothèse : Distribution identique des comptages d’une
librairie à l’autre
j
median
Scaling normalization (Robinson & Al, 2010) (TMM) [7]
 Principe :
E [ X ij ] 
 fj = si / sj
log 2 ( fˆ j ) 
 ij L i
N
Sj
a

i G
r
*
r
w ij M ij
i G
j
j
r
*
w ij
 Mrij : log ratio gène i entre échantillon j et r
 wij : Correction sur la variance
 Li : Taille du gène i
Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011
Analyse différentielle – Comparaison des normalisations proposées pour le 454
[N= 2681] RNA.max RNA.TC RNA.MED RNA.TMM RNA.DESEQ RNA.FQ microarray
RNA.max
RNA.TC
RNA.MED
RNA.TMM
RNA.DESEQ
RNA.FQ
microarray
100.0
98.5
97.9
98.5
98
81.5
21.1
74.7
100.0
89
100
85.1
82.6
16.4
79.5
95.2
100.0
95.2
91.4
78.9
17.4
74.7
100.0
89.0
100.0
85.1
82.6
16.4
84.0
96.2
96.5
96.2
100.0
77.8
18.3
Résultats :
1) Tableau (ci-dessus): Pourcentage de gènes
différentiels communs en faisant varier le type de
normalisation pour les données de 454
2) Graphe (ci-contre) : Similarités des listes de gènes
différentiels obtenues à partir des données de 454 en
faisant varier le type de normalisation
41.8
55.9
49.9
55.9
46.6
100.0
12.4
74.1
76.2
75.2
76.2
75.2
85.2
100.0
Clustering hiérarchique
Distance de corrélation et méthode de Ward
Conclusion :
1) Diagrammes de Venn très similaires d’une normalisation
à l’autre
2) Particularité de la normalisation FQ
Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011
Conclusions & Perspectives [Technologie 454]
1) Etude essentiellement basée sur la comparaison de diagrammes de Venn
MAIS mesurait-on vraiment la même chose au départ ?
2) L’intérêt de la technologie 454 est liée à la garantie pour l’utilisateur d’une
couverture suffisante a priori sur l’ensemble des contigs étudiés :
« Solutions bioinformatiques et/ ou planifications expérimentales adaptées
passent par une coordination soutenue des compétences bio-informatiques et
statistiques »
3) Nécessité de « garder le contact » avec les biologistes.
Importance du travail de vulgarisation scientifique par la mise à disposition
d’outils intermédiaires adaptés :
- Score d’estimation de la variabilité des répétitions biologiques et/ou techniques
- Outils d’estimation de seuil de lectures « limite »
4) Les modèles d’analyse différentielle utilisés en séquençage 454 reposent
encore aujourd’hui sur des hypothèses fortes (loi hypergéométrique), et
nécessitent d’être améliorés …
Après normalisation des données de comptage, certains gènes différentiels en
microarrays ne le sont plus en séquençage du fait d’une mauvaise prise en
compte de la variabilité qui perdure … L’adéquation du choix de l’association
« normalisation + modèle » se doit d’être rigoureusement déterminée
Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011
Références [liste non exhaustive]
• Metzker ML. Sequencing technologies –the next generation. Nature Reviews Genetics, 2010 Jan;
11(1):31-46 [3]
• Bullard JH, Purdom E, Hansen KD, Dudoit S. Evaluation of statistical methods for normalization and
differential expression in mRNA-seq experiments. BMC Bioinformatics2010, 11:94. [2]
• Mortazavi A, Williams BA, McCue K, Schaeffer L, Wold B. Mappingand quantifying mammalian
transcriptomes by RNA-seq. Nature Methods, 2008 Jul; 5(7):621-628.
• Audic, S. and Claverie, J-M. The significance of digital gene expression profiles. Genome research
1997; 7:986-995
• Cloonan, N et al. Stem cell transcriptome profiling via massive-scale mRNA sequencing. Nature
Methods2008; 5(7):613-619.
• Robinson MD, Smyth, GK. Moderated statistical tests for assessing differences in tag abundance.
Bioinformatics 23(21):2881-2887. [7]
• Robinson MD, McCarthy DJ, Smyth, GK. edgeR: a Bioconductor package for differential expression
analysis of digital gene expression data. Bioinformatics2009.
• Marioni JC, Mason CE et al. RNA-seq: An assessmentof technical reproducibility and comparison
with gene expression arrays. GenomeResearch2008, 18:1509-1517. [1]
• Robinson MD, Oshlack A. A scaling normalization method for differential expression analysis of RNAseqdata. GenomeBiology2010, 11:R25
• Anders, S and Huber, W. Differential expression analysis for sequence count data. Nature Precedings
2010, march [6]
• Torres T, Metta M, Ottenwälder B, and Schoötterer C. 2008 : Gene expression profiling by massively
parallel sequencing, Genome Research, 1: 172-177
Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011
Références [suite]
• Bolstad B, Irizarry R, Astrand M, and Speed T. A comparison of normalization methods for high
density nucleotide array data based on variance and bias. Technical report, UC Berkeley, 2002 [4]
• Gordon K. Smyth. Limma : linear models for microarray data. In R. Gentleman, V. Carey, S. Dudoit, R.
Irizarry, and W. Huber, editors, Bioinformatics and Computational Biology Solutions using R and
Bioconductor, pages 397, 420. Springer, New York, 2005 [5]
Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011