En bioinformatique

Download Report

Transcript En bioinformatique

Cours L3 Biologie Cellulaire && Moléculaire
Bioinformatique
Responsable: KERMEZLI Yasmina
2013/2014
La bioinformatique
elle émerge dans les années 1980.
l’analyse et l’interprétation des informations biologiques contenues
soit :
Dans Le génome (séquences ADN, ARN)  la génomique
Soit:
dans le protéome  la protéomique
l’analyse" in silico " de l’information biologique contenue dans les
séquences nucléiques et/ou protéiques.
informatici
ens
Médecins
biologistes
Bioinforma
ticiens
physiciens
mathémati
ciens
de résoudre un problème scientifique posé par la
biologie
Elle s’intéresse aux données du :
1. génome.
2. transcriptome.
3. protéome.
4. métabolome (lipides, glucides, faisant partie des activités
métaboliques de la cellule vivante).
2.Epigenome
5.interactome
1. qu’est ce qu’une base de données (BD) ?
un ensemble structuré et organisé permettant le stockage de grandes
quantités d'informations afin d'en faciliter l'exploitation (ajout, mise à
jour, recherche de données).
Une base de données se traduit physiquement par un ensemble de
fichiers présent sur une mémoire de masse (bien souvent un disque).
Certaines peuvent être accessibles via les réseaux, on parle alors de
base de données en ligne .
Bref: Une base de données est un fichier ou un ensemble de fichiers
permettant le stockage permanent ou temporaire des informations.
En bioinformatique:
une base de données biologiques peut contenir des informations sur :
des protéines
des gènes
des plasmides
Aujourd’hui, il existe une grande diversité de bases biologiques que vous
pouvez consulter sur le Net.
Ces bases offrent des fiches descriptives des données stockées; ces
fiches sont appelées des entrées.
Exemples :
• Base de données taxonomique
• Bases de structure : PDB (Protein Data Bank)
• Bases d’expression : YPD (Yeast Proteome Database), MGED
(Microarray and Gene Expression Data Home)
• Bases de voies métaboliques : KEGG, DAVID
. La base UCSC
Les trois principales banques de données nucléiques sont :
1. GenBank de NCBI (National Center for Biotechnology Information)
2. EMBL de EMBO (Europen Moleculary Biology Organization)
3. DDBJ : (Dna Data Base of Japan )
Elles ont, cependant quelques qualités :
• Un très grand nombre de séquences :
par exemple en 2000;
EMBL contenait déjà 109 bases nucléiques,
SwissProt contenait 31 millions d’acides aminés.
• Une grande variétés d’organismes (homme, animaux, végétaux,
microorganismes).
Comparaison des séquences :
En bioinformatique, la comparaison des séquences (ADN, ARN et/ou
protéines : ARNm, régions 5’UTR) repose essentiellement sur la notion
de l’alignement, et permet de déterminer le degré de ressemblance
entre celles-ci (similitude ou identité en révélant des régions proches
dans leurs séquences primaires).
Cela peut alors indiquer que :
- La structure (primaire, secondaire ou tertiaire) des deux séquences
est semblable,
- La fonction biologique est proche ou différente (dans le cas de la
dissémilarité),
- L’origine des séquences alignées est commune ou éloignée (notion
d’homologie), …
Pourquoi: Comparaison de séquences?
Séq X
Séq Y
AAATTTTTTCCCCGCGGTTTTTTTTTTCCATTTAAC
AAATTTTTTCCCCGCGGTTTTTTTTTTCCAAAACC
une fonction biologique proche
une structure tridimensionnelle semblable
SéqX
une origine et/ou une histoire évolutive commune
SéqD
Séq Y
Insertion
Seq X G A R F I E
VAI
Délétion
HEL A STFA—CAT
SeqY
LDT
HE V– YFAS T C AT
GARFIE
match
Mismatch
Groupe
B
BELHOCINE
Mohamed
H
HASSAIRI
Mohamed
K
KACEL
Idir
KERMEZLI
Yasmina
groupe-bhk.fr/egeneIII
Attendez la validation de vos comptes!
Pour voir le travail sans modifications
Pour voir avec modifications
Pour envoyer la séquence à la correction
Comment peut-on poser des
questions sur le forum ?!!
Quelles sont les étapes à suivre
pour annoter une séquence
génomique?!!
1
La recherche d’ORF
2
Traduction
3
Modélisation 3D
4
Domaine protéique
5
Blast
6
Rapport Taxonomique
7
Homologues
8
Alignement multiple
9
Arbre phylogénétique
10
11
Classification taxonomique
Conclusion
1
La recherche d’ORF
2
Traduction
3
Modélisation 3D
4
Domaine protéique
5
Blast
6
Rapport Taxonomique
7
Homologues
8
Alignement multiple
9
Arbre phylogénétique
10
11
Classification taxonomique
Conclusion
Open Reading Frame
Protocole suivi
ORF finder /copier coller la séquence génomique avec la
forme fasta /code génétique standard /cadre de lecture
(1,2, 3)
d’a.a =60
/any codon pour l’initiation /nombre minimale
Copier
Coller
Résultats
Copier
Coller
Il faut refaire le meme protocole pour le
sens indirect
1
La recherche d’ORF
2
Traduction
3
Modélisation 3D
4
Domaine protéique
5
Blast
6
Rapport Taxonomique
7
Homologues
8
Alignement multiple
9
Arbre phylogénétique
10
11
Classification taxonomique
Conclusion
Sauvegardez à chaque fois
le travail!
Copier la
traduction
Coller ici
Copier coller ici
1
La recherche d’ORF
2
Traduction
3
Modélisation 3D
4
Domaine protéique
5
Blast
6
Rapport Taxonomique
7
Homologues
8
Alignement multiple
9
Arbre phylogénétique
10
11
Classification taxonomique
Conclusion
Coller
Supprimez la
description!
Supprimez le codon
stop !
Voila!
Vous allez recevoir un mail avec les résultats
Voici le mail des
résultats
Cliquez sur
ce lien
Puis ici
Faites glisser le fichier sur le bureau
Le logiciel de
visualisation
Le fichier
PDB
Cliquez ici
Puis ici
Après ici
Et enfin sur ouvrir
Mais, comment introduire
ce modèle 3D dans E-gène
??
1
La recherche d’ORF
2
Traduction
3
Modélisation 3D
4
Domaine protéique
5
Blast
6
Rapport Taxonomique
7
Homologues
8
Alignement multiple
9
Arbre phylogénétique
10
11
Classification taxonomique
Conclusion
Coller séquence protéique ici
Source
Désignation
E-value
Début-fin
1
La recherche d’ORF
2
Traduction
3
Modélisation 3D
4
Domaine protéique
5
Blast
6
Rapport Taxonomique
7
Homologues
8
Alignement multiple
9
Arbre phylogénétique
10
11
Classification taxonomique
Conclusion
Copier Coller la séquence
protéique ici
Copier tout le
tableau
Coller
dans le
champs
résultats
bruts
(partie
blast)
1
La recherche d’ORF
2
Traduction
3
Modélisation 3D
4
Domaine protéique
5
Blast
6
Rapport Taxonomique
7
Homologues
8
Alignement multiple
9
Arbre phylogénétique
10
11
Classification taxonomique
Conclusion
Copier tous
Coller ici
1
La recherche d’ORF
2
Traduction
3
Modélisation 3D
4
Domaine protéique
5
Blast
6
Rapport Taxonomique
7
Homologues
8
Alignement multiple
9
Arbre phylogénétique
10
11
Classification taxonomique
Conclusion
Allez cocher sur
blast
Mettez les étiquettes
1
La recherche d’ORF
2
Traduction
3
Modélisation 3D
4
Domaine protéique
5
Blast
6
Rapport Taxonomique
7
Homologues
8
Alignement multiple
9
Arbre phylogénétique
10
11
Classification taxonomique
Conclusion
Copier coller les homologues
ici
Voila!
Copier coller ici
1
La recherche d’ORF
2
Traduction
3
Modélisation 3D
4
Domaine protéique
5
Blast
6
Rapport Taxonomique
7
Homologues
8
Alignement multiple
9
Arbre phylogénétique
10
11
Classification taxonomique
Conclusion
1
La recherche d’ORF
2
Traduction
3
Modélisation 3D
4
Domaine protéique
5
Blast
6
Rapport Taxonomique
7
Homologues
8
Alignement multiple
9
Arbre phylogénétique
10
11
Classification taxonomique
Conclusion
Tapez le nom scientifique de la
l’organisme le plus proche
1
La recherche d’ORF
2
Traduction
3
Modélisation 3D
4
Domaine protéique
5
Blast
6
Rapport Taxonomique
7
Homologues
8
Alignement multiple
9
Arbre phylogénétique
10
11
Classification taxonomique
Conclusion
Une synthèse de toutes les étapes ,
analyse des résultats
Posez vos hypothèses!!
Envoyez la séquence à la
correction I
Voila!
Merci pour votre
attention
&&
Bonne annotation