Aucun titre de diapositive

Download Report

Transcript Aucun titre de diapositive

Séminaire Genopole d’Evry du 17 Juin 2005
MicroScope :
Bases de données pour la (ré)annotation de génomes bactériens
Claude Scarpelli
(Equipe informatique du Genoscope”)
Laurent Sainte-Marthe
Sylvain Bonneval
Dr Claudine Médigue
(“Atelier de Génomique Comparative”)
Aurélie Lajus
Stéphane Cruveiller
Zoé Rouy
David Vallenet
Annotation des génomes bactériens
Sequençage
Bases/banques génomiques
Prédiction
de gènes
Annotation
fonctionnelle
Annotation
manuelle
Prediction de régions codantes,
promoteurs, terminateurs, RNAs
Recherche de similarités, familles de
protéines, domaines, …
Suggestion de fonctions, classification
Validation des annotations automatiques,
Recherche complémentaires (littérature,
bases spécialisées),
Analyse contextuelle, fusions de gène,
interactions de protéines , phylogénie, etc…
Intégration dans d’autres
plateformes d’analyse
Ré-annotation
Validation/mise à jour des annotations
Données d’expression, phenotypes de
mutant, etc.
Annotation des génomes bactériens
Sequençage
Labo ‘humide’+ Bioinformatique
Bases/banques génomiques
Prédiction
de gènes
Bioinformatique
Annotation
fonctionnelle
Bioinformatique
Annotation
manuelle
Effort
Manuel
PROCEDURES
AUTOMATIQUES
INDISPENSABLES
Intégration dans d’autres
plateformes d’analyse
Ré-annotation
INTERFACES
GRAPHIQUES
INDISPENSABLES
Bioinformatique
Labo ‘humide’ + Bioinformatique
Annotation des génomes bactériens : contexte internationale
 Aux Etats Unis :
 TIGR : pipeline annotation, bases de données,
interface Web (service + formation)
 Pipeline automatique à l’ORNL (http://genome.ornl.gov/microbial)
puis intégration au site IMG du DOE (http://img.jgi.doe.gov/v1.1/main.cgi)
 Univ. Wisconsin : base de données de séquences et
d’annotations + données d’expression (E. coli)
 En Allemagne
Au MIPs : automatic annotation of bacterial proteomes
(plateforme d’annotation experte PedantPro)
 GenDB plateforme d’annotation automatique + expert
(« open source »)
 Au Danemark
 Atlas des données de génomes publiés
 En Angleterre :
 Outil d’annotation graphique de génomes
Univ. Bielefeld.
http://www.cbs.dtu.dk/services/GenomeAtlas/
Sanger Center
Projets de ré-annotation de génomes bactériens au TIGR
 Base de données CMR (Comprehensive Microbial Resource)
+
«Primary annotation» : annotations originales
« TIGR annotation » : annotations automatiques
Gènes en plus
Portion du génome de S. typhimurium (Genome Browser de CMR) :
Projets de ré-annotation de génomes bactériens au NCBI
 Projet RefSeq (Reference Sequence)
Reviewed RefSeq : annotations automatiques + ‘curation’ manuelle par des
experts du NCBI.
Provisional RefSeq : annotations automatiques uniquement
Provisional RefSeq : annotations originales
LOCUS
DEFINITION
…
COMMENT
Gènes en plus/en moins
NC_000961
1738505 bp
DNA
circular BCT 07-JUN-2005
Pyrococcus horikoshii OT3, complete genome.
REVIEWED REFSEQ: This record has been curated by NCBI staff. The
reference sequence was derived from BA000001.
…
gene
CDS
494591..495058
/locus_tag="PH0553.1n"
/db_xref="GeneID:1444443 »
494591..495058
/locus_tag="PH0553.1n"
/codon_start=1
/transl_table=11
/product="putative flagella-related protein"
/protein_id="NP_877768.1"
/db_xref="GI:33359301"
/db_xref="GeneID:1444443"
/translation="MGFSVSASAAIVFISFLIGLGTLYIAWENSYLEVQAAREFWYSL
RTSQLHFDIGNVSISYVNSTHVDVAFTYLGQTLEGKIDVLHNGTYVSSVDVTYLIPGE
SYSITIPGGDTSGSLNHLTLAFNNGCVAIIAYHYNGTAYVVDSTSIQCPMEVS"
Gène supplémentaire entre
les CDSs PH0553 et PH0554
Projets de ré-annotation de génomes bactériens à l’EBI
 Projet Genome Reviews (GR)
 Enrichissement/correction des annotations fonctionnelles originales
(Données UniProt, Genome Ontology, InterPro, etc)
 Standardisation/homogénéisation des annotations
 Elimination des annotations ‘erronées’ (‘curators’ de UniProt/SWISSProt)
 Ajout de CDSs correspondants à des entrées UniProt non annotées sur un
génome.
Gènes en moins/en plus
ID
XX
DT
XX
DE
XX
CC
CC
…
AE014299_GR standard; circular genomic DNA; GRV; 4969803 BP.
06-JUN-2005 (Rel. 28, Last updated, Version 33)
Shewanella oneidensis (strain MR-1) chromosome, complete sequence.
This Genome Reviews entry was created from entry AE014299.1 in the
EMBL/GenBank/DDBJ databases on 06 June 2005.
FT CDS
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
complement(3273023..3273601)
/codon_start=1
/gene="tdk {UniProt/Swiss-Prot:Q8ECK0}"
/locus_tag="SO3140 {UniProt/SwissProt:Q8ECK0}"
/product="Thymidine kinase {UniProt/SwissProt:Q8ECK0}"
/EC_number="2.7.1.21 {UniProt/Swiss-Prot:Q8…}"
/function="ATP binding {GO:0005524} »
/function="thymidine kinase activity {GO:0004797}"
/biological_process="DNA metabolism
{GO:0006259}"
CDS
complement(3273023..3273601)
/locus_tag="SO3140"
/note="identified by match to PFAM protein
family HMM PF00265"
/codon_start=1
/transl_table=11
/protein_id="AAN56142.1"
/product="thymidine kinase
Ajout de CDSs dans le fichier GR : exemple chez E. coli
ID U00096_GR standard; circular genomic DNA; GRV; 4639675 BP.
XX
DE Escherichia coli (strain K12) chromosome, complete sequence.
CC This Genome Reviews entry was created from entry U00096.2 in the
CC EMBL/GenBank/DDBJ databases on 06 June 2005.
…
FT CDS
1486256..1487695
FT
/gene="aldA"
FT
/locus_tag="b1415"
FT
/product="Aldehyde dehydrogenase A"
FT
/EC_number="1.2.1.21"
UniProtKB/Swiss-Prot entry P33898
FT
/EC_number="1.2.1.22"
Entered in Swiss-Prot in
/function="glycolaldehyde dehydrogenase activity"
Release 28, February 1994 FT
FT
/function="lactaldehyde dehydrogenase activity"
FT
/biological_process="metabolism"
CAUTION : In the K12 strain this
FT
/translation="MSVPVQHPMYIDGQFVTWR… »
gene is disrupted by a stop codon
FT CDS
complement(1487737..1488389)
and a frameshift. It seems to be
FT
/pseudo="{EMBL:U00096}"
intact in a number of wild strains.
FT CDS
join(complement(1487997..1488737),
FT
complement(1487737..1487994))
FT
/evidence="{BLASTALL 2.2.6/ALIGN 2.0u}"
FT
/product="Glyceraldehyde-3-phosphate dehydrogenase C
FT
{UniProt/Swiss-Prot:P33898}"
FT
/EC_number="1.2.1.12 {UniProt/Swiss-Prot:P33898}"
FT
/insertion="1487994^1487995,seq:G
FT
{UniProt/Swiss-Prot:P33898}"
FT
/transl_except=(pos:1488621..1488623,aa:Lys)
FT
{UniProt/Swiss-Prot:P33898}
FT
/translation="MSKVGINGFGRIGRLVLGRLLEVKSNI…
Situation en France et objectif de MicroScope
CAATBox
(génomes pathogènes
séquencés à l’IP)
GenoList
MICADO
AGMIAL
(génomes
bactériens
d’intérêt agro-alimentaire)
iANT
(S. meliloti,
R. solanacearum)
(plateforme de
génomique
exploratoire)
IMGLib
=> Proposer une «assistance» aux biologistes pour l’annotation de génomes
bactériens (automatique et experte)
Les 3 composantes
de MicroScope
Pipeline d’annotation automatique (1)
Bases de données relationnelles (2)
Interface graphique d’annotation MaGe (3)
Composante 1 de MicroScope : outils d’annotation structurale
From different authors
From the AGC group
AMIMat et AMIGene
AMIMat : caractériser des groupes de gènes homogènes dans l’usage
des codons au sein d’un génome bactérien.
http://www.genoscope.cns.fr/agc/tools/micheck/html/database_status.html
Class IV
(256)
Class III
(397)
AFC
Clustering
Class II
(1551)
Class I
(1791)
AMIGene : Détecter les gènes de composition atypique / petits gènes
http://www.genoscope.cns.fr/agc/tools/amigene
P(X/X1...Xk)
start
stop
Patterns starts/stops
+ RBS (RBS-Finder)
Matrice(s) de transitions
+
phase 1
w
GeneMark
phase 2
phase 3
+
Heuristique de
sélection des CDSs
les plus probables
Chevauchements
Inclusions, …
MICheck : ré-annotation (syntaxique) de génomes bactériens
Objectif : Vérifier rapidement si les annotations répertoriées dans les
banques de séquences pour un génome donné sont complètes.
http://www.genoscope.cns.fr/agc/tools/micheck
Résultats MICheck quelques génomes bactériens
Genome
Uniques AMIGene
Uniques Banque
Ori RefSeq GR
Ori RefSeq GR
3099
15
5
15
65
14
65
2694
18
35
18
941
186
941
Nb Gene
Ori RefSeq GR
Corynebacterium
3099 2993
glutamicum
Aeropyrum
2694 1843
pernix
Résultats MICheck sur A. pernix (status Reviewed Refseq)
CDS UNIQUES
AMIGene
18
35
CDS communes
1565
1569
CDS UNIQUES
Banques
941
186
BA000002
NC_000854
Genbank
‘original’
(BA000002)
Fichier
‘Refseq’
(NC_00854)
APE1077
APE1089
APE1087a
rplX
APE1088a
APE1097
Résultats MICheck quelques génomes bactériens
Genome
Nb Gene
Ori RefSeq GR
Corynebacterium
3099 2993
glutamicum
Aeropyrum
2694 1843
pernix
Oceanobacillus
3497 3502
iheyensis
Haemophilus
1739 1716
influenzae
Uniques AMIGene
Uniques Banque
Ori RefSeq GR
Ori RefSeq GR
3099
15
5
15
65
14
65
2694
18
35
18
941
186
941
3497
2
14
2
18
18
18
1709
2
4
47
4
0
4
Buchnera sp.
572
572
564
0
0
10
0
0
0
Shewanella
oneidensis
4757 4438
4630
20
7
150
175
15
175
Fichier d’annotation original et fichier EMBL (GR)
gene
gene
CDS
gene
gene
CDS
gene
…
3266258..3268062
AE005176
/gene="dctB"
/locus_tag="SO3137"
/note="This region contains an authentic frame shift and
/note="This region contains an authentic frame shift and
is not the result of a sequencing artifact;
is not the result oftransport
a sequencing
artifact;
C4-dicarboxylate
C4-dicarboxylate
sensor
protein,
authentic
transport
sensor
protein,
authentic
frameshift"
frameshift"
3268059..3269438
/gene="dctD"
/locus_tag="SO3138"
3268059..3269438
/gene="dctD"
/locus_tag="SO3138"
/note="similar to GB:X14046, SP:P11049, and PID:29794;
identified by sequence similarity; putative"
/codon_start=1
/transl_table=11
/product="C4-dicarboxylate transport transcriptional
regulatory protein"
complement(3269514..3272585)
/locus_tag="SO3139"
/note="This region contains an authentic frame shift and
/note=" This region contains an authentic frame shift and
is not the result of a sequencing artifact; conserved
is not the result
of a sequencing
artifact;
… " putative"
hypothetical
protein;
identified by
Glimmer2;
complement(3273023..3273601)
/locus_tag="SO3140"
complement(3273023..3273601)
/locus_tag="SO3140"
/note="identified by match to PFAM protein family HMM
PF00265"
/codon_start=1
/transl_table=11
/protein_id="AAN56142.1"
/product="thymidine kinase
3274138..3276066
/locus_tag="SO3141"
/note="This region
region contains
contains aa gene
gene with
with one
one or
or more
more
/note="This
premature
stops
or
frameshifts,
and
is
not
the
result
of aa
premature stops or frameshifts, and is not the result of
sequencing
artifact;
cytochrome
c,
degenerate;
similar
to
sequencing artifact; cytochrome c, degenerate; similar to
GP:3628769;
identified
by
sequence
similarity;
putative"
GP:3628769; identified by sequence similarity; putative"
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
CDS
CDS
CDS
CDS
3264761..3266158
AE005176_GR
/codon_start=1
/gene="dctM {UniProt/TrEMBL:Q8ECK2}"
/locus_tag="SO3136 {UniProt/TrEMBL:Q8ECK2}"
/product="C4-dicarboxylate transport protein …
3268059..3269438
/codon_start=1
/gene="dctD {UniProt/TrEMBL:Q8ECK1}"
/locus_tag="SO3138 {UniProt/TrEMBL:Q8ECK1}"
/product="C4-dicarboxylate transport
transcriptional regulatory protein
{UniProt/TrEMBL:Q8ECK1} »
complement(3273023..3273601)
/codon_start=1
/gene="tdk {UniProt/Swiss-Prot:Q8ECK0}"
/locus_tag="SO3140 {UniProt/SwissProt:Q8ECK0}"
/product="Thymidine kinase {UniProt/SwissProt:Q8ECK0}"
/EC_number="2.7.1.21 {UniProt/Swiss-Prot:Q8…}"
/function="ATP binding {GO:0005524} »
/function="thymidine kinase activity {GO:0004797}"
/biological_process="DNA metabolism
{GO:0006259}"
3276288..3278438
/codon_start=1
/gene="dcp-1 {UniProt/TrEMBL:Q8ECJ9}"
/locus_tag="SO3142 {UniProt/TrEMBL:Q8ECJ9}"
/product="Peptidyl-dipeptidase Dcp"
/function="metalloendopeptidase activity
{GO:0004222}"
/biological_process="proteolysis and peptidolysis
{GO:0006508}"
Résultats MICheck quelques génomes bactériens
Genome
Nb Gene
Ori RefSeq GR
Corynebacterium
3099 2993
glutamicum
Aeropyrum
2694 1843
pernix
Oceanobacillus
3497 3502
iheyensis
Haemophilus
1739 1716
influenzae
Uniques AMIGene
Uniques Banque
Ori RefSeq GR
Ori RefSeq GR
3099
15
5
15
65
14
65
2694
18
35
18
941
186
941
3497
2
14
2
18
18
18
1709
2
4
47
4
0
4
Buchnera sp.
572
572
564
0
0
10
0
0
0
Shewanella
oneidensis
4757 4438
4630
20
7
150
175
15
175
Dehalococcoides
ethenogenes
1592
6
51
Xanthomonas
oryzae
4637
123
76
Annotation manquante dans le génome de Xanthomonas oryzae
CDS UNIQUES
AMIGene
CDS communes
123
4323
CDS UNIQUES
Banques
76
NC_006834
XOO3514
XOO3512
XOO3513
XOO3516
XOO3517
XOO3518
XOO3515
Putative vgr-related
protein
Similar to rhs element vgr protein
from Burkholderia mallei (Q62L24)
Similar to putative membrane protein
from Burkholderia pseudomallei
(Q63QC8)
Composante 1 de MicroScope : outils d’annotation fonctionnelle
From different authors
From the AGC group
Syntonizer : Groupes de synténies dans les génomes bactériens
Objectif : Détecter des groupes de gènes ‘localement’ conserver dans
les génomes bactériens.
A
Synteny Group #2
Synteny Group #1
B
Rearrangement
Fusion
Duplication
http://www.genoscope.cns.fr/agc/tools/syntonizer
Insertion
Inversion
Reconstition de voies métaboliques
Prédiction d’activités
enzymatiques (PRIAM)
Relation :
numéros EC
Organisme
X
Pathway de Référence
Peter Karp (SRI International)
Requêtes dynamiques au serveur
de Kyoto.
Correspondances simples par EC
sur les données d’un génome de
référence.
Base métabolique construite pour
chaque génome annoté (genomeCyc)
Pathologic : identifie les voies
métaboliques à partir des EC +
données métaboliques de MetaCyc.
 Pathway Hole Filler : recherche
de gènes candidats pour les
enzymes manquantes.
Voies prédites dans l ’organisme X
Composante 2 de MicroScope : Procaryotic Genome DataBase
Objectif : données d’annotation ‘propres’, cohérentes, à la source des
méthodologies de génomique comparative
• SGBD relationnel (MySQL)
• Génomes complets (Refseq NCBI + GR)
 Intégration dans PkGDB
Homogénéité des données
Gestion des ‘frameshifts’
Integration des données publiques dans PkGDB
PkGDB
Databank
file
Databank_Annotation
Set of original
annotations
PkGDB
Databank_Annotation
Set of original
annotations
Compare_Annotation
‘valids’ CDSs
‘valid’ CDSs (1)
All the annotated genes :
‘valid’ CDSs (1)
+
Automatically corrected CDSs
and CDSs which need to be
manually corrected
Pre-matrix building up
Model gene used to
compute coding
prediction curves
• Check/correction of erroneous CDSs
• Pseudogenes annotation
Annotation des pseudogènes dans PkGDB
gene
Error type = ‘No3multiple’
gene
CDS
kdpC
kdpB
kdpD
kdpE
speF
gene
‘complex’ CDS (‘cCDS’ type in PkGDB)
gene
gene
‘fragment’ of CDSs (‘fCDS’ type in PkGDB)
…
622524..624571
/gene="kdpB"
/locus_tag="S0610"
/note="frameshift"
/pseudo
/db_xref="GeneID:1077039"
624580..625152
/gene="kdpC"
/locus_tag="S0611"
624580..625152
/gene="kdpC"
/locus_tag="S0611"
/function="enzyme; Transport of
small molecules: Cations"
/codon_start=1
/transl_table=11
/product="potassium-transporting
ATPase"
625145..627825
/gene="kdpD"
/locus_tag="S0612"
/note="frameshift"
/pseudo
627822..628507
/gene="kdpE"
/locus_tag="S0613"
/note="frameshift"
/pseudo
629197..631394
/gene="speF"
/locus_tag="S0614"
/note="frameshift"
/pseudo
Integration des données publiques dans PkGDB
PkGDB
Databank
file
PkGDB
Databank_Annotation
Set of original
annotations
PkGDB
Databank_Annotation
Set of original
annotations
Compare_Annotation
All the CDS with the
‘Checked’ Statut
Compare_Annotation
‘valid’ CDSs
All the annotated genes :
‘valid’ CDSs (1)
+
Automatically corrected CDSs
and CDSs which need to be
manually corrected
‘valid’ CDSs (1)
Corrected and valid
CDSs (2)
Pre-matrix building up
AMIMat :
Computation of gene
models using FCA and
clustering methods
Model gene used to
compute coding
prediction curves
• Check/correction of erroneous CDSs
• Pseudogenes annotation
Syntonizer :
Computation of synteny
group using complete
data set of annotations
Composante 2 de MicroScope : Procaryotic Genome DataBase
Objectif : données d’annotation ‘propres’, cohérentes, à la source des
méthodologies de génomique comparative
• SGBD relationnel (MySQL)
• Génomes complets (Refseq NCBI + GR)
 Intégration dans PkGDB
Homogénéité des données
Gestion des ‘frameshifts’
 Ré-annotation syntaxique
Complétion /correction des données
• Génomes nouveaux (projets d’annotation)
• Résultats d’analyses :
 Intrinsèques : gènes, signaux, répétitions,…
 Extrinsèques : Blast, InterPro, COG, synténies
…
Composante 2 de MicroScope : bases thématiques
Projet : base de (re)annotation Neisseria
 intégration des génomes séquencés disponibles :
2 Neisseria meningitidis serogroup A strain Z2491 + serogroup B MC58 (2000)
1 Neisseria gonorrhoeae (2005)
1 Neisseria meningitidis serogroup C strain FAM18 (en cours au Sanger)
1 Neisseria meningitidis NEM8013 (en cours à l’Institut Pasteur)
Séquences + (re)-annotations
+ annotations automatiques
+ synténies (> 230 génomes)
MetaCyc
PkGDB
Yersinia
Scope
Bacillus
Scope
DB objet Ocelot
ColiScope
NeisseriaScope
BraORSCyc
ADP1Cyc
FalniCyc
FrankiaScope
AcinetoScope
ColiScope
CenarCyc
RhizoScope
NeisseriaScope
Multigénomes
Cyc
Composante 3 de MicroScope : interface d’annotation MaGe
Début du développement : Oct. 2002
Contexte : annotation du génome de
Acinetobacter sp. ADP1 (été 2004)
Developpé par des biologistes impliqués eux
même dans l’annotation experte (D. Vallenet)
Quelques originalité du système MaGe
 Editeur d’annotation ‘modulaire’
Les changements sont adaptés aux projets
 Annotation réalisée avec contexte des gènes annotés
 Interface graphique permettant de visualiser les résultats de
synténie entre protéomes bactériens.
Comparaison des annotations de plusieurs génomes
en utilisant l’organisation des gènes
Connection à MaGe
http://www.genoscope.cns.fr/agc/mage/project _name
 Bacterial annotation projects in progress :
Login name and password are required.
 Available re-annotation and annotation projects :
project _name = AcinetoScope (Acinetobacter sp. ADP1)
= BacillusScope (Bacillus species)
= YersiniaScope (Yersinia species)
Carte graphique du génome en cours d’annotation
CoDing Sequences
rRNA genes
Repeat
(DNA)
Coding prediction curves
obtained with Matrix number 1
tRNA genes
Carte graphique du génome en cours d’annotation
 The overall DNA sequence is loaded
 The annotation data corresponding
to the vizualized region in MaGe (1
bp to 3001 bp) are loaded.
Applet JAVA
Carte graphique du génome en cours d’annotation
Where are the predicted enzymes in the
KEGG pathways ?
(complete annotations or only those in
the visualized region)
Kanehisa
(Kyoto University)
• Requête dynamique au serveur KEGG
• Les enzymes sont coloriées selon le résultat du ‘mapping’
sur les voies métaboliques d’un génome de référence
Carte graphique du génome en cours d’annotations
Connection to the BioCyc metabolic database built in the
AGC group (genomeCyc):
 PathoLogic pathway analysis
Peter Karp (SRI International)
-> list of the identified metabolic pathways
 Pathway Hole Filler
-> list of gene candidates for missing enzymes
 In the annotator editor of a gene coding an enzyme
-> link to the corresponding metabolic pathway(s)
Connection à BioCyc sur l’instance de la base du génome en cours d’annotation
Interface graphique des synténies dans MaGe
Interface graphique des synténies dans MaGe
Low similarity results :
from 16.5% to 23.5%
identity
High similarity results :
From 52% to 73% identity
Combinaison des synténies et des voies métaboliques
0074
ugd
1.1.1.22
0073
rmlC
ACIAD0075
rmlB
4.2.1.46
rmlD
1.1.1.133
rmlA
2.7.7.24
5.1.3.13
Connectivité à la base métabolique KEGG
Enzymes encoded by genes in the MaGe region
Enzymes encoded by genes elsewhere in the
Acinetobacter genome
Additional enzymes in E. coli
Combinaison des synténies et des voies métaboliques
0074
ugd
0073
rmlC
ACIAD0075
1.1.1.22
rmlB
4.2.1.46
rmlD
1.1.1.133
rmlA
5.1.3.13
2.7.7.24
ACIAD0075
Expert annotation -> “Polysaccharide transport protein”
(Automatic annotation
-> “Putative transporter”)
Exploration des données d’homologie/synténie
Search for
 Keywords
 Homologs and synteny groups
 Specific genes and regions
Acinetobacter genes in synteny
with genes from
 PkGDB organisms
 NCBI RefSeq organisms
AND having no hit with genes from
 PkGDB organisms
 NCBI RefSeq organims
(optional)
MicroScope : Rôle de l’AGC et de l’équipe informatique
 Développement et maintenance des bases thématiques
 Intégration des génomes ‘proches’ dans PkGDB
 Analyse complète d’un génome nouvellement séquencé
 Recherche de synténies avec l’ensemble des procaryotes complets
 Construction de la base BioCyc
 Mise à la disposition des données via l’interface MaGe
 Optimisation de l’architecture des bases et des ressources machines
 Gestion efficace des mises à jour des données
 Mise à jour des banques de séquences et des comparaisons
 Avancée du “Finishing” : reconstruction des bases
 Formation et suivit des utilisateurs
(une journée : outils d’annotation et interface MaGe)
 Aujourd’hui : 16 projets en cours
Examples de projets MicroScope
Base de
Données
NeisseriaScope
LeptoScope
BurkholScope
FrankiaScope
Bactérie(s)
Neisseria
Pathogène Humain
meningitidis NEM8013
Leptospira biflexa
Burkholderia
species
Frankia alni
Frankia sp. CcI3
Frankia sp. EAN1
Pathogène/
Saprophyte H.
Pathogène
CenibaScope
BradyrhizoScope
E. coli D & E
Escherichia
fergusoni
Cenibacterium
arsenoxidans
C. Rusniok (LGMP, IP, Paris)
M. Picardeau & C. Bouchier
(IP, Paris)
E. Fialho (Portugal)
Institut
Pasteur
Institut
Pasteur
Sanger Center
P. Daelegen (Genoscope, Evry)
Commensales et
Pathogènes
Environnement
(Métabolise l’arsenic)
Genoscope
E. Denamur (INSERM, Bichat)
P. Bertin
(ULP, Strasbourg)
Thiomonas spp.
Consortium GDR Arsenic
Bradyrhizobium
sp. ORS278
E. Giraud (LSTM, Montpellier)
Bradyrhizobium
sp. BTAi1
Séquençage
Genoscope
P. Normand (Lyon)
Symbiote de plantes D. Benson (Univ. Connect, USA)
DOE JGI
L. Tisa (Univ. New H, USA)
Escherichia coli B
ColiScope
Collaborateurs
Symbiote de plantes G. Stacey (Univ. Missouri, USA)
M. Sadovsky (Univ. Minnesota,
USA)
Genoscope
Genoscope
DOE JGI
Perspectives pour MicroScope
 Interfaces de requêtes multigénomes :
 Interfaces génériques et spécifiques (requêtes pré-cablées)
 Interfaces graphiques -> accès à MaGe/BioCyc/Syntonizer
 Améliorer l’annotation fonctionnelle automatique :
 Détection automatique des évènements de fusion/fission
 Combinaison synténies/voies métaboliques
 Recherche automatique de candidats d’enzymes manquantes
 Tirer profit de l’annotation experte :
 Interface permettant de propager l’annotation experte d’un gène
aux orthologues ‘forts’.
 Formation à l’annotation de génomes bactériens
et à la plateforme d’annotation MaGe
 4 journées organisées au Genoscope à partir de l’automne 2005
(préparation, au préalable, de la base liée au projet)
-> Les outils d’annotation
-> Utilisation de MaGe autour du (des) génomes d’intérêt
Le site Web de MicroScope :
Les acteurs de MicroScope
 A l’Atelier de Génomique Comparative :
 Zoé Rouy
 David Vallenet
 Aurélie Lajus
 Stéphane Cruveiller
 Dans le service informatique :
 Claude Scarpelli
 Laurent Sainte-Marthe
 Sylvain Bonneval
… avec la complicité pour les bases BioCyc de :
 François Lefèvre (équipe de V. Schächter)
 Et sans oublier les retours de nos collaborateurs biologistes !
Et pour finir …
Paul Kersey de l’EBI vient nous parler des projets
Genome Reviews et Integr8 Jeudi prochain à 11h
dans cette même salle (le 23 Juin)
« Interg8 and Genome reviews: integrated views of complete
genomes and proteomes”
Je vous remercie de votre attention !…