Annotation de séquences génomiques: gènes

Download Report

Transcript Annotation de séquences génomiques: gènes

Annotation de séquences
génomiques: gènes
Olivier Garsmeur
Gaétan Droc
Franc-Christophe Baurens
Dominique This
Stéphanie Sidibé-Bocs
Annotation des séquences génomiques
Une fois le séquençage et l’assemblage du génome d’un organisme achevé, 2
principales questions :
1) Où sont les gènes et comment sont-ils distribués ?
 Distinguer gènes et éléments transposables
 Annotation structurale
2) Quelle est la fonction de ces gènes ?
 Annotation fonctionnelle
Les gènes
● Ou sont les gènes?
● Les prédictions sont basées sur la structure (motifs, signatures ): intron,
exon, splice site, UTR.
Gène prédit fonctionnel
 Structure complète
Stop
ATG
GT
AG
Codon initiateur M (ATG)
Stop codon TAA, TAG or TGA
GT (GC) / AG splicing site
Pas de stop dans les exons
prédits
Pseudogene (non fonctionnel)
 Structure NON complete
CDS (CoDing Sequence)
Exon1
Exon2
Gene
missing_acceptor
missing_donor
missing_start_codon
missing_stop_codon
multiple_stop_in_frame
Annotation automatique
Deux méthodes d'annotation automatique :
1. Méthodes intrinsèques (ab-initio)
2. Méthodes extrinsèques
1. Méthode intrinsèque d'annotation automatique
-Basée uniquement sur des analyses informatiques avec des modèles statistiques
-Modèles probabilistes (Hidden Markov Models - Modèles de chaîne de Markov
cachées - HMM) pour faire la distinction entre les régions codantes et noncodantes du génome
- Besoin d'un set d'entraînement de gènes annotés pour être efficace
"apprentissage"
1. Méthode intrinsèque d'annotation automatique
brin direct
brin complémentaire
Lukashin & Borodovsky, 1998
ensemble des transitions possibles entre états cachés (cercles)
Outils d'annotation automatique des gènes
Exemples de logiciels de prédiction des gènes
Plantes:
GeneMark.HMM
GeneFinder
Eugene
FgeneSH
GlimmerA
Augustus
Animaux:
Genie
HMMgene
MagPie
GenID
Grail
Humain:
Genescan
GeneFinder
GeneWise
2. Méthodes extrinsèques
Approche comparative basée sur les similarités de séquences
-> la séquence à annoter est comparée aux bases de données
3 types de comparaison
Protéine
ADNc
ADNg
ADNg
Alignement
ADNg - Protéine
Alignement
ADNg - ADNc
Alignement
ADNg - ADNg
2. Méthodes extrinsèques
L'annotation fonctionnelle sera toujours déduite des similarités
(homologies) avec les éléments prédits dans les bases de données
sequence (query)
target (Subject)
database
BLASTN
nucleotide
nucleotide
NR , EST, genomes
BLASTX
translated nucleotide
protein
Swissprot-Trembl
BLASTP
protein
protein
Swissprot-Trembl
TBLASTX translated nucleotide
translated nucleotide
NR , EST, genomes
TBLASTN protein
translated nucleotide
NR , EST, genomes
2. Méthodes extrinsèques
Domaines protéiques conservés = signatures
Bases de Données de signatures de domaines protéiques qui peuvent être utilisées pour la
classification et l'annotation automatique des protéines
Interproscan : classe les séquences en superfamilles, familles et sous-familles; prédit l'occurrence
des domaines fonctionnels et des sites importants
BD de domaines utilisées par Interproscan :
Prosite patterns
Pfam
ProDom
Superfamily
TIGRFAMs
GENE3D
HAMAP
PANTHER
PIRSF
http://www.ebi.ac.uk/interpro/
Bases de données…oui, mais…
Les bases séquences protéiques sont pour la grande majorité uniquement le résultat
de la traduction in-silico de séquences nucléiques (pas de certitude biologique)
exemple: Trembl database = traduction automatique de NR database. (protéines
incomplètes, fragments).
 Swissprot contient un nombre moins important de protéines que Trembl, mais les
séquences sont vérifiées manuellement par des bio-curateurs
Les séquences EST sont souvent de mauvaise qualité (séquencage simple brin,
erreurs)
Cluster d’ESTs disponibles, detection de structures correspondant à des gènes
Les séquences de génomes complets sont très utiles pour faire du transfert
d’annotation. Mais seules les espèces proches (phylogénie) donnent une annotation
pertinente (divergence, évolution)
Eléments répétés
Les gènes ne représentent qu’une petite portion du génome
● Les éléments répétés peuvent représenter plus de 80% du génome (blé)
différents types
Class
Retrotransposon
Order
Superfamily
Family
Code / Label
LTR
Copia
Gypsy
opie
maggy
RLC
RLG
RLX
Unclassified
L1
Unclassified
Alu
Unclassified
RIL
RIX
RSA
RSX
TIR
CACTA
Mutator
DTC
DTM
MITE
Stowaway
Tourist
DTT
DTH
Helitron
Helitron
DHH
LINE
SINE
DNA transposons
LTR, long terminal repeat;
LINE, long interspersed nuclear element;
SINE, short interspersed nuclear element;
TIR , terminal inverted repeat.
MITE, Miniature Inverted Transposable Element
Classification from Wicker et al (2007). A unified classification system for eukaryotic transposable elements.
Nat Rev Genet, 8, 973-982.
LTR-Retrotransposons, Ty1 (copia) & Ty3 (gypsy)
Chez les plantes, les éléments répétés les plus abondants (en terme de % de couverture du
génome) sont les LTR retrotranposons
Masquer les séquences répétées
On peut filtrer les éléments répétés avant l'annotation des gènes
-les TEs peuvent être confondus avec des gènes codant pour des protéines (transposases et traces)
-les TEs perturbent la structure des modèles de gène, en s'insérant dans les introns par exemple (longues insertions, le
modèle de gène est coupé fréquemment)
Mais ce n’est pas une obligation, surtout si on veut pouvoir décrire l’ensemble des éléments d’une région donnée
 Repeat masker est l'outil le plus utilisé pour masquer les répétitions
http://www.repeatmasker.org/cgi-bin/WEBRepeatMasker
Annotation automatique
Annotation automatique pratique, mais à vérifier manuellement !
Réalisée avec des programmes
informatiques, algorithmes statistiques
- le résultat est un équilibre entre faux positifs
et faux négatifs
- le transfert peut induire des erreurs ou des
aberrations
travail humain, donc :
- lent !
- également source d'erreur !
 Annoter manuellement les gènes dans les régions d'intérêt
 Pour faciliter l'annotation manuelle, utilisation de systèmes d'annotation contrôlés et
"universels" (chaînes de traitement de prédictions automatiques, stockage des annotations,
interfaces web graphiques de requête, d'exploration et de validation)
Méthode intégrative d'annotation automatique
Méthode intégrative = ab-initio + approches comparatives
Prédictions ab-initio des gènes couplées aux résultats de similarité avec les bases de données pour
améliorer significativement l'annotation (les méthodes intrinsèques et extrinsèques se
complémentent)
Evaluation de la pertinence de l’annotation
Exemple de l’évaluation de l’annotation sur des séquences de clones BAC Medicago
VP (vrais positifs) gènes prédits, réellement présents = bonne prédiction
FP (faux positifs) gènes prédits, mais réellement non présents = sur prédiction
FN (faux négatifs) gènes non prédits, mais normalement présents = sous prédiction
VN (vrais négatifs) gènes non prédits, et réellement absents = bonne prédiction
la pertinence est mesurée par le rapport Sensibilité/spécificité : Sn/Sp
Sensibilité =
Spécificité =
Gene finder
Sn N
Sp N
Sn E
Sp E
Sn G
Sp G
GenScan+
83.2
98.2
69.6
78
25.8
29
GenMarkHMM
89.9
94.8
73.1
76.6
32.4
31.6
FgenesH-At
95.1
93
85.3
81.4
47
46.5
FgenesH-Mt
97.6
92.1
85.1
80.7
52.8
47.8
EGN
93.7
95
84.7
85.4
55.5
50.5
EGN+FgenesH
97.8
94.2
90
86.9
63.2
56.4
EGN+FH+AA
98.6
93.9
92.4
88
69.2
61.8
EGN+FH+AA+
EST
98.2
99.9
94.4
94.6
80.2
79.4
Combiner d'annotation automatique
http://eugene.toulouse.inra.fr/
Eugene: fonctionnement
DNA sequence
Blastx
FGenesH
Genome
Threader
SpliceMachine
Eugene HMM
Eugene
A
B
blastp
tblastn
Interproscan
BBMH
Greenphyl
blastx
GTh
Exonerate
C
STRUCTURAL
blastp
tblastn
Interproscan
BBMH
Greenphyl
FUNCTIONAL
blastx
Gth
Exonerate
EuGène : fichier graphique de sortie
Annotation manuelle
exemple de logiciel d'annotation : Artemis
transposon
gène (7 exons)
séquence nucléotidique
Eléments annotés
http://www.sanger.ac.uk/resources/software/artemis/
Plateforme d'annotation GNPAnnot au CIRAD
Annotation automatique
Annotation manuelle
Annotateur
intégration
vérification
croisement
analyse
http://southgreen.cirad.fr/
Dr Stéphanie Sidibe Bocs
Plateforme d'annotation GNPAnnot au CIRAD
http://www.gnpannot.org/
GBrowse : outil de visualisation de l'annotation
nom et taille de la séquence
Espèce, plateforme d'annotation utilisée
séquence
Gènes annotés
GBrowse : outil de visualisation de l'annotation
nom et taille de la séquence
Espèce, plateforme d'annotation utilisée
séquence
Eléments répétés annotés
A vous de jouer …
L’annotation des génomes
Cahier de vacances
½ journée