454/illumina

Download Report

Transcript 454/illumina

Arnaud Felten – M2.1 Bioinfo
Conception et réalisation d’un
environnement logiciel pour l’exploration
et l’analyse phylogénétique des
microbiomes
Présentation du projet de mission professionnelle
Encadrant : Catherine Dauga
Tuteur universitaire : Josselin Bodilis
1
Mardi 27 Mars 2012
Objectifs
① Comparer la performance des technologies 454 et Illumina pour le
séquençage de microbiome
① Evaluer différentes méthodes d’analyses : logiciel et banque




Proportion d’artefacts et de chimères
Proportion des OTUs rares
Qualité de l’identification taxonomique
Efficacité du filtrage
① Concevoir une stratégie d’analyse des microbiomes
 utilisant les meilleurs outils testés et leurs paramètres
 intégrés dans un système de Workflow
2
Janvier 2012
Méthodologie
Synthetic
data
Seq
16S
Serveur
ptaxoptimizer
NCBI/RDPII
Silva/Greengenes
NCBI/RDPII
script
Optimisation
du fichier de sortie
 tabulation
taxonomique
Silva/Greengenes
3
pblastall
 Best hit
script
traitement des résultats et
représentations graphiques
Analyse et représentation des
données avec R
Bibliothèque de fonction
Script modèle
« à trous »
lecture csv
dénombrement de la taxonomie
calcule sensibilité/spécificité
Création d’un script adapté aux données
à partir de la technologie et du domaine
utilisé ainsi que de la nature des
séquences initiales
Scripts représentations graphiques
histogramme
nuage de points
(radar plot)
ajout des légendes/titres…
production d’un PDF
4
Automatisation
NGS read
simulators :
Seq
16S
Synthetic
data
MetaSim, ART, …
Serveur
ptaxoptimizer
NCBI/RDPII
Silva/Greengenes
NCBI/RDPII
pblastall
 Best hit
script
script
Silva/Greengenes
5
Simulation : “Mono bacteria”
Mock communities : “mono bacteria”
 Une seule espèce d’un seul genre bactérien
Acinetobacter,
Helicobacter,
Enterococcus,
(Akkermansia)
454 / Illumina
ARNr 16S : complet / régions V5-V6
1000 reads par échantillon
Temps d’analyse : 1h pour 1 bactérie / 1 technologie / 1 domaine
11/2 semaines pour répétitivité X100 (400 000 BLAST)
Analyse sur la base de données RDP II
6
Analyse « mono-bacteria »
454/illumina
7
Analyse « mono-bacteria »
V5-V6/full length
8
Simulation “multi-phyla”
Mock communities
Plusieurs espèces d’un ou plusieurs phyla
Protéobacteria,
 Firmicutes,
 Bacteroidetes,
 Actinobacteria,
 Fusabacteria
454 / Illumina
ARNr 16S : complet / régions V5-V6 (V4)
5 000 reads
9
Bases de données ARNr 16S
16S
Microbial
SSURef
11/11
108
Mothur
2011
BLAST
RDPII
SSURef
05/11
Ref
10.28
Souche
type
10.28
10
Analyse « multi-phyla »
454
11
Analyse « multi-phyla »
Illumina
12
Analyse « multi-phyla »
Rapport faux positifs et NA sur
correctement identifiés
13
Simulations “microbiote cryptes souris”
Mock communities
Plusieurs espèces venant d’un même phylum
Proteobacteria,
454 / Illumina
ARNr 16S : complet / régions V5-V6 (V4)
 50 000 reads
14
Composition microbiote cryptes souris
(données réelles)
Pseudomodales
15
Composition et phylogénie des données
synthétiques
90%
0,5%
0,5%
2,5%
1,5%
2,5%
2,5%
16
Analyse des résultats de la
simulation crypte souris
454
17
Analyse des résultats de la
simulation crypte souris
Illumina
18
Analyse des résultats de la
simulation crypte souris
Identification à l’espèce
19
Perspectives à court et moyen terme
Poursuite des simulations de données:
 Simulation et analyse crypte souris : Firmicutes
 Simulation d’un microbiote complet de souris
 37 bactéries provenant de 5 phyla
 Génération de données avec ART et évaluation des méthodes de filtrage (qualité)
Analyse des séquences :
Evaluation des détecteurs de chimères sur les données réelles
 Autres méthodes (MEGAN, RDP classifier)
Analyse des OTUs :
 Uclust, QUIME, Mothur, TreePhyler, ARB
20