pdf - ExPASy

Download Report

Transcript pdf - ExPASy

François Lombard; IUFE
Marie-Claude Blatter; SIB Institut Suisse de Bioinformatique
Au menu
Théorie, ateliers ‘papier crayon’, ateliers ‘bioinformatiques’, discussions
● A - DNA, génome (s), 'mon génome', SNP (nouvelles technologies)
● B - Discussion et activité sur la relation génotype(s) - phénotype(s)
(association, causalité, importance de l'environnement)
● C 1- Universalité de l'ADN, métagénomique, biodiversité d'une pizza
● C 2 - Alignement multiple et Phylogénétique
2
Tous les documents sont accessibles depuis:
http://tecfa.unige.ch/perso/lombardf/bist/ (= http://doiop.com/bist )
● http://tecfa.unige.ch/perso/lombardf/bist/BIST-seymaz-21-I-13.html
http://education.expasy.org/bioinformatique/FormCont2014.html
(moins complet)
3
A - DNA, génome (s), 'mon génome‘, SNP
A
4
Quelques notions de base…
● Cellules
Un être humain = entre 1 et 10 trillions de cellules…
et… ~10 x plus de bactéries
-> 90 % des cellules de notre corps = bactéries…(1-2 kg); plus de 1000 espèces
5
Quelques notions de base…
● Cellules
● Chromosomes
6
Quelques notions de base…
● Cellules
● Chromosomes (23 x 2)
7
Nombre de chromosomes chez différentes espèces
●
●
●
●
●
●
●
●
●
●
●
●
●
Fougère: 1440
Amide protée: 500-1000
Poisson rouge: 100
Crevette: 92
Escargot: 54
Homme: 46
Poulet: 42
Levure: 16
Tomate: 12
Pin: 12
Cacao: 10
Drosophile: 6
Bactérie: 1
• Source: wikipedia
8
● Pour découvrir les caryotypes de différentes espèces (Mapviewer)
http://education.expasy.org/bioinformatique/Atelier1.html
● Etat actuel de la recherche: pas tous les caryotypes sont connus et donc
disponibles sur Mapviewer….
9
Quelques notions de base…
● Cellules
● Chromosomes
● ADN
10
Quelques notions de base…
● Cellules
● Chromosomes
● ADN
Quelques chiffres:
10.5 pb = 3.4 nm
• Chromosome 1: 249'250’621 pb soit 8.2 cm d’ADN
• Chromosome 21: 48’129’895 pb soit 1.6 cm d’ADN
• Une cellule: 2 x 3’000’000’000 pb soit 2 m d’ADN
• ADN total: 600 x aller-retour terre-soleil….
11
● Pour en savoir plus sur les chromosomes humains:
http://www.chromosomewalk.ch/chromosome/chromosome-1/
http://www.chromosomewalk.ch/chromosome/chromosome-2/
http://www.chromosomewalk.ch/chromosome/chromosome-3/
Etc…
http://www.chromosomewalk.ch/chromosome/chromosome-xx/
http://www.chromosomewalk.ch/chromosome/chromosome-xy/
12
● ADN extrait des cellules de la muqueuse buccale
● Quelques milliers de cellules…quelques kilomètres d’ADN….
13
● ADN vu au microscope électronique à balayage
Giles Sparrow: ‘La nature vue de très près’; 80 000x
14
Quelques notions de base…
● Cellules
● Chromosomes
● ADN (Génome, Gène)
15
Le génome humain
●
●
●
●
●
●
Projet Apollo de la biologie
15 ans; 3000 chercheurs, 3 milliards de dollards; ‘fini’ en 2003
Génome de référence: séquence ‘haploide’ ; ADN de 15 individus (mosaique)
3 milliards de nucléotides; régulièrement remis à jour (‘release’, ‘build’)
Disponible sur internet (GenBank)
Autre génome humain disponible en ligne: Craig Venter (diploide)
● Etudes des populations humaines (1000 génomes, HapMap, Encode, etc…):
toutes les ‘différences’ sont exprimées par rapport au génome de référence
(taille des chromosomes, positions des polymorphismes (SNP), etc…)
● Balade dans le génome: utilisation des ‘genome browser’ (UCSC, Mapviewer)
● Nouvelles technologies (‘omics’): 1 dollard investi (expérience) = 10 dollards à investir
pour l’analyse (statistique - bioinformatique); Digest big data -> small data ?
16
Some ‘NGS technologies’
NGS:’ next generation sequencing’
•
•
•
•
•
•
•
•
•
•
ChIP-seq, ChIP-chip (protein DNA interaction; chromatin immunoprecipitation
with antibodies specific to the transcription factor followed by sequencing of
the precipitated DNA)
Hi-C (identification of genomics regions with spatial proximity;
PMID:22652625)
RNA seq (RNA sequence; quantitatif); transcriptome - metatranscriptome
Methyl seq (DNA methylated)
MeDIP seq (methylated DNA immunoprecipitation)
SHAPE seq (RNA structure)
3P-seq (
polyadenylated RNAs)
Tiling array (subtype of microarray chips which use probe for sequences
which are known to exist in a contiguous region.)
Ribosome profiling (method for quantitatively monitoring part of mRNAs that
are translated
CAGE: cap analysis gene expression (identify transcription events; PMID:
18474037)
17
PMID:20601439
18
Début de la séquence du chromosome 21…
GATCTTCCTCCAAAGAAATTGTAGTTTTCTTCTGGCTTAGAGGTAGATCATCTTGGTCCAATCAGACTGA
AATGCCTTGAGGCTAGATTTCAGTCTTTGTGGCAGCTGGTGAATTTCTAGTTTGCCTTTTCAGCTAGGGA
TTAGCTTTTTAGGGGTCCCAATGCCTAGGGAGATTTCTAGGTCCTCTGTTCCTTGCTGACCTCCAATTTT
GTCTATCCTTTTGCTGAGAGGTCTGCTTAACTTCCTTTTAGTCAGGTAGCTCCATTTTATGCTAAGCTTC
TTAGTTGCTCACCTTCTGCAGCTAAAGAATCAGAAAATGCTGTGAAGGAAAAACAAAATGAAATTGCATT
GTTTCTACCGGCCCTTTATCAAGCCCTGGCCACCATGATAGTCATGAATTCCAATTGTTGTCTATGCAGG
CCTACCAGATTTCTAACATCTCTGAGCTACCATTTTCTTCTTAGCTATCTGCTCAGCAAATGTATCCAAA
TGAAAGGCTGTGGAGAATGTTGAAATCACTTCAATGTGTTTCTCTTCTTTCTGGGAGCTTACACACTCAA
GTTCTGGATGCTTTGATTGCTATCAGAAGCCGTTAAATAGCTACTTATTTTTAATTAATTTTACCCAGCT
TTCATAATTGTTCTTGCCAGGTGGGATGGCCTGATACAAATTAACTTGTCATAGCTAGAATTAGAAGAGG
AAAACTTTAAATAGCATTGAGTTATCAGTACTTTCATGTCTTGATACATTTCTTCTTGAAAATGTTCATG
CTTGCTGATTTGTCTGTTTGTTGAGAGGAGAATGTTCAGAATTTTATATCTTCAACATCTTTTTCTTCAT
TAATAAGATACTGAGATTTTATAACTCTTGTCATTTTGGTCACTTATATTTTCATATGGAAATATCGTAT
AATCCAGGGTTTCCAATATATTTGTGTAAAATTAAGAAAATTATCTTATCTAATAACTTGATCAATATCT
GTGATTATATTTTCATTGCCTTCCAATTTTAATATTTGTTCTCTATTCCTTCTTAATCTGGATTGAAGTT
CTGATTAATTATTTTAATGTTGCAAATTGTTTTCACTTTTTCCATAAAATGAGTTCTAGAGTTTATTTCT
TTACTGCATCATTCTATTTTCAAGTCATGAACTTCTGCTTCAACTAAAAAAAAAAAACTCACCGTTTGTA
http://www.ncbi.nlm.nih.gov/nuccore/51036002
TGAAATTGTTGTGTTCATATTTTATTTTTTATTTACTGTATAATTCAGTATTGAATATATAATATTATAA
AATATGTAATAAAAGGATAAAAAATAAGATACAAAAAGTAAGGGGTGTGCGTTTGGAAAATTATACTTGC
TGATATGGTGAAATAACTCTGACCAAACTAACCTTCCAGCAATAAAAACAAATTTGGAAAACTGGAAAAA
ATATACATGGCAACATGTTAGGTCATCTTTGTCTGCCTTCAAACAACTATAAATATTGTTCTACCCAAAC
19
20
ADN de l’homme de Néanderthal
GATCACAGGTCTATCACCCTATTAACCACTCACGGGAGCTCTCCATGCATTTGGTATTTTCGTCTGGGGG
GTGTGCACGCGATAGCATTGCGAGACGCTGGAGCCGGAGCACCCTATGTCGCAGTATCTGTCTTTGATTC
CTGCCCCATTCCATTATTTATCGCACCTACGTTCAATATTACAGGCGAGCATACTTACTGAAGTGTGTTA
ATTAATTAATGCTTGTAGGACATAATAATAACGACTAAATGTCTGCACAGCTGCTTTCCACACAGACATC
ATAACAAAAAATTTCCACCAAACCCCCCCTCCCCCGCTTCTGGCCACAGCACTTAAACACATCTCTGCCA
AACCCCAAAAACAAAGAACCCTAACACCAGCCTAACCAGATTTCAAATTTTATCTTTTGGCGGTATACAC
TTTTAACAGTCACCCCCTAACTAACACATTATTTTCCCCTCCCACTCCCATACTACTAATCTCATCAATA
CAACCCCCGCCCATCCTACCCAGCACACACCGCTGCTAACCCCATACCCCGAGCCAACCAAACCCCAAAG
ACACCCCCCACAGTTTATGTAGCTTACCTCCTCAAAGCAATACACTGAAAATGTTTAGACGGGCTCACAT
CACCCCATAAACAAATAGGTTTGGTCCTAGCCTTTCTATTAGCTCTTAGTAAGATTACACATGCAAGCAT
CCCCATTCCAGTGAGTTCACCCTCTAAATCACCACGATCAAAAGGGACAAGCATCAAGCACGCAACAATG
CAGCTCAAAACGCTTAGCCTAGCCACACCCCCACGGGAAACAGCAGTGATAAGCCTTTAGCAATAAACGA
AAGTTTAACTAAGCTATACTAACCCCAGGGTTGGTCAATTTCGTGCCAGCCACCGCGGTCACACGATTAA
CCCAAGTCAATAGAAGCCGGCGTAAAGAGTGTTTTAGATCACCCCCTCCCCAATAAAGCTAAAACTCACC
TGAGTTGTAAAAAACTCCAGTTGACACAAAATAAACTACGAAAGTGGCTTTAACATATCTGAACACACAA
TAGCTAAGACCCAAACTGGGATTAGATACCCCACTATGCTTAGCCCTAAACCTCAACAGTTAAATCAACA
AAACTGCTCGCCAGAACACTACGAGCCACAGCTTAAAACTCAAAGGACCTGGCGGTGCTTCATATCCCTC
TAGAGGAGCCTGTTCTGTAATCGATAAACCCCGATCAACCTCACCACCTCTTGCTCAGCCTATATACCGC
CATCTTCAGCAAACCCTGATGAAGGCTACAAAGTAAGCGCAAGTACCCACGTAAAGACGTTAGGTCAAGG
TGTAGCCCATGAGGTGGCAAGAAATGGGCTACATTTTCTACCCCAGAAAACTACGATAGCCCTTATGAAA
http://www.ncbi.nlm.nih.gov/nuccore/196123578?report=fasta
CCTAAGGGTCGAAGGTGGATTTAGCAGTAAACTGAGAGTAGAGTGCTTAGTTGAACAGGGCCCTGAAGCG
CGTACACACCGCCCGTCACCCTCCTCAAGTATACTTCAAAGGACATTTAACTAAAACCCCTACGCATTTA
TATAGAGGAGACAAGTCGTAACATGGTAAGTGTACTGGAAAGTGCACTTGGACGAACCAGAGTGTAGCTT
AACACAAAGCACCCAACTTACACTTAGGAGATTTCAACTTAACTTGACCGCTCTGAGCTAAACCTAGCCC
CAAACCCACTCCACCTTACTACCAAACAACCTTAGCCAAACCATTTACCCAAATAAAGTATAGGCGATAG
21
ADN du virus du SIDA (HIV)
AAATCTCTAGCAGTGGCGCCCGAACAGGGGACCTGAAAGCGAAAGTGAGACCAGAGGAGATCTCTCGACG
CAGGACTCGGCTTGCTGAAGTGCACTCGGCAAGAGGCGAGAGCGGCGACTGGTGAGTACGCCAATTTTTA
TTTGACTAGCGGAGGCTAGAAGGAGAGAGATGGGTGCGAGAGCGTCAATATTAAGAGGCGAAAAATTAGA
TGCCTGGGAAAAAATTAAGTTAAGGCCAGGGGGAAAGAAACACTATATGCTGAAACACCTAGTCTGGGCA
AACAGGGAGCTGGAAAAATTTGCACTTAACCCTGACCTTTTAGATACATCAGCAGGCTGTAAACAAATAA
TTAAACAGCTACAACCAGCTCTTCAGACAGGAACAGAGGAACTTAAATCATTATTTAATACAGTGGCAAC
TCTCTATTGTGTACATCAAAAGATAGAGATAAAAGACACCAAGGAAGCCTTAGACAAGATAGAGGAAGAA
CAAAACGAAAGTCAGCAAAAAACACAGCAGGCAGGAGCAGCTGACAGAGGAAAGGACAGTCAAAATTATC
CTATAGTGCAGAATATGCAGGGGCAAATGGTACATCAGCCCATATCAGCTAGAACTTTGAATGCATGGGT
AAAAGTAGTAGAGGAAAAGGCTTTCAGCCCAGAGGTAATACCCATGTTTACAGCTTTATCAGAAGGAGCC
ACCCCACAAGATTTAAACACCATGCTAAATACAGTGGGGGGACATCAAGCAGCCATGCAAATGTTAAAAG
ACACCATCAATGAGGAGGCTGCAGAATGGGACAGGTTACATCCAGTGCATGCAGGGCCTGTTGCACCAGG
CCAAATGAGAGACCCAAGGGGAAGTGACATAGCAGGAACAACTAGTACCCTTCAGGAACAAATAGCATGG
ATGACAGGGAACCCACCTGTTCCAGTGGGAGACATCTATAAAAGATGGATAATCCTGGGGCTAAATAAAA
TAGTAAGAATGTATAGCCCTGTCAGCATTTTGGACATAAAACAAGGACCAAAGGAACCTTTTAGAGACTA
TGTAGACCGGTTCTTTAAAACCTTAAGAGCTGAACAAGCTACACAAGATGTAAAAAATTGGATGACAGAC
ACCTTGTTGGTCCAAAATGCGAACCCAGATTGTAAAACCATTTTAAGAGCATTAGGGCCAGGGGCTTCAT
TAGAAGAAATGATGACAGCATGTCAGGGAGTGGGAGGACCTGCCCACAAAGCAAGAGTGTTGGCTGAGGC
AATGAGCCAAGTAAACAATACAACCATAATGATGCAGAAAAGCAATTTTAAGGGCCCTAAAAGAGCAATT
AAATGTTTCAACTGTGGCAAGGAAGGGCACCTAGCCAGAAATTGCAGGGCCCCTAGGAAAAAAGGCTGTT
GGAAATGTGGAAAGGAAGGACACCAAATGAAAGACTGTACCGAGAGACAGGCTAATTTTTTAGGGAGACT
http://www.ncbi.nlm.nih.gov/nuccore/U46016?report=fasta
TTGGCCTTCCAACAAGGGAAGGCCAGGGAATTTCCTTCAGAGCAGACCAGAGCCAACAGCCCCACCAGAG
AGTCTCAGACCAGAGCCAACAGCCCCACCACCAGAGAGCTTCAGGTTCGAGGAAGCAACACCTTCTCCGA
AGCAGGAGCTGAAAGACAGGGAAGCCTTAACTTCCCTCAAATCACTCTTTGGCAACGACCACTTGTTACA
ATAAAAATAGGGGGACAGCTAAAGGAGGCTCTCTTAGACACAGGAGCAGATGATACAGTATTAGAAGAAA
22
● Autres séquences intéressantes:
http://education.expasy.org/bioinformatique/Atelier1.html
23
Quelques notions de base…
● Cellules
● Chromosomes
● ADN (Génome, Gène)
Un gène = Un bout de séquence d’ADN
qui ‘code’ pour une protéine
24
http://www.ncbi.nlm.nih.gov/nuccore/AY138590
~ 20’000 gènes humains
Les gènes représentent environ 2 % du ‘texte’ génome humain
(ici le gène de l’insuline sur le chromosome 11: en rouge la partie qui est ‘codante’)
25
A quoi ça sert tout ça ?
● Quelques exemples….
26
27
~ 3 millions de variations entre 2 individus
~10 millions de variations dans la population
neutres (la majorité)
associées à un phénotype particulier…
associées à une prédisposition
associées à une maladie…
~10 ‘fautes de frappe’ à chaque génération
S.E. Antonarakis
28
http://education.expasy.org/bioinformatique/pdfs/chromosome21vert-rouge.docx
29
Enquête (ADN)
Un médecin a reçu des morceaux d’ADN provenant de 2 individus différents.
Il a mélangé les tubes et a donc besoin de votre aide pour savoir:
Quel individu a le plus de chance d’avoir les yeux bleus ?
Quel individu a le plus de chance d’être naturellement très musclé ?
Quel individu a le plus de chance d’être d’origine japonaise ?
Quel individu est probablement insensible au goût amer ‘PTC’ ?
Approche:
Comparer les séquences ADN des 2 individus avec celles qui se trouvent dans la ‘banque de données’ ADN.
…et répondre aux questions ! Bonne chance !
30
こんにちは
Séquence ADN:
…tgggcatctgcttctgcattgccagtgtactcaggc…
Cette séquence correspond à un gène qui joue un rôle dans la fabrication de
la cire d’oreille. La variation g -> a est associée avec une cire d’oreille
‘sèche’ que l’on retrouve surtout dans les populations d’Asie et du Japon,
en particulier.
http://alfred.med.yale.edu/alfred/recordinfod.asp?UNID=SI001630K
Publication (2006) (récessif)
chromosome 16: MRP8
31
Séquence ADN:
… ttcatttgagcattaagtgtcaagttctgcacgctat…
Cette séquence d’ADN est impliquée dans la régulation de la fabrication de la
mélanine, un des nombreux pigments responsables de la couleur des yeux.
Cette séquence est associée avec un taux plus faible de mélanine dans l’iris et
donc avec une chance plus élevée pour les individus d’avoir des yeux
bleus.
http://alfred.med.yale.edu/alfred/recordinfod.asp?UNID=SI007119S
Publication (2008)
Chromosome 15: HERC2 (rs12913832)
32
Séquence ADN
…. catgcctacagagtgtaagtagtcctattagtgtat….
Séquence ‘mutée’ du gène codant pour la protéine Myostatine, qui régule le
développement du muscle. Cette séquence est associée avec une musculature
particulièrement bien développée.
Un enfant ‘Popeye’, né en Allemagne, possède cette mutation. Sa protéine Myostatine n’étant
pas fonctionnelle, il avait à 7 mois déjà, une musculature 2x plus développée que les autres
enfants de son âge (Publication (2004)).
Les bovins sont sélectionnés naturellement pour leur
musculature…qui dépend aussi en grande partie des
variations du gène de la Myostatine.
Chromosome 2: MSTN
33
Séquence ADN
… tggcccctactccaactcttatgagaacagccttatccca …
Séquence ‘mutée’ du gène EPOR, un gène impliqué dans la régulation de la
production des globules rouges. Cette séquence est associée avec un taux
élevé de globules rouges dans le sang.
Eero Mäntyranta, un athlète finlandais, a obtenu
une médaille d’or de ski de fond aux Jeux
Olympiques d’hiver de 1964. Il avait un taux élevé
de globules rouges suite à une mutation dans le
gène EPOR. Publication (1991); dominant
Chromosome 19: EPOR
34
Séquence ADN
…cactgcccgaggctgactgagagcgaggtgccatcatgggcatcc…
Séquence ‘mutée’ du gène ACTN3, important pour l’architecture de nos cellules
musculaires entre autre. Environ 18 % de la population humaine a une variation
c -> t, qui est associée avec une meilleure endurance physique.
Publication (2003)
Chromosome 11: ACTN3 (rs1815739)
35
http://blogredaction.rougefm.com/actu/2013/12/13/le-lausanne-sport-a-testegenetiquement-ses-24-joueurs/
36
Séquence ADN
….cataagcactgttaagtacactttg….
Séquence ‘mutée’ d’un gène impliqué dans la formation des empreintes digitales
Les individus avec un t à la place du g ont les doigts lisses (pas d’empreinte
digitale !). Cette ‘maladie’ a d’abord été appelée ‘immigration delay disease’, car les
individus ont souvent eu des soucis pour passer la douane !
Publication (2011) (dominant)
chromosome 4: SMARCAD1
37
Séquence ADN
…acgggctgcaggcatacactaaagtgaaaactgtgagtgtg…
Séquence du gène ALDH2 qui joue un rôle dans la dégradation de l’alcool.
Les individus avec la variation g -> a sont très sensibles à l’alcool….Cette variation
est surtout présente en Asie et chez les Indiens d’Amérique du Sud
http://alfred.med.yale.edu/alfred/recordinfod.asp?UNID=SI000734O
Publication (1995)
Chromosome 12: ALDH2 (rs671)
38
Séquence ADN
…actacctctgaatgttacaacgaatttacagtctagtactt…
Séquence du gène HMGA2 qui joue un rôle dans la régulation du cycle cellulaire.
Des variations dans ce gène (inclue la variation c -> t) sont associées avec des
variations importantes de la taille des individus.
Publication (2007)
Chromosome 12: HMGA2
39
Séquence ADN
… tagtgaagaggcaggcactgagcaacagtgattgtgtgctgctgt…
Séquence du gène TASR38 qui code pour un récepteur sensible aux substances
amères. Les individus avec un ‘g’ ne sont pas sensibles* à l’amertune d’une
substance appelée PTC, substance que l’on retrouve dans les brocolis.
Chromosome 7: TAS2R38
* Il faut que cette variation soit associée avec 2 autres variations dans le même gène pour ne pas être sensible au PTC
Publication (2003)
40
Atelier de bioinformatique
Sur quel chromosome se trouve la séquence
tagtgaagaggcaggcactgagcaacagtgattgtgtgctgctgt
?
Comment faire ? Exemple avec la séquence du gène de l’insuline
http://education.expasy.org/bioinformatique/journee_diabete_3.html
http://genome.ucsc.edu/cgi-bin/hgBlat?command=start
41
http://education.expasy.org/bioinformatique/journee_diabete_3.html
42
tagtgaagaggcaggcactgagcaacagtgattgtgtgctgctgt
43
B - Discussion et activité sur la relation
génotypes - phénotypes (association, causalité,
environnement)
B
44
23 and me
https://www.23andme.com/
45
http://www.fda.gov/ICECI/EnforcementActions/WarningLetters/2013/ucm376296.htm
FDA sends a warning letter to 23andMe –
Personal Genomics Service marketing to be discontinued
November 2013
46
• https://www.23andme.com/health/
‘At this time, we have suspended our health-related genetic tests to comply
with the U.S. Food and Drug Administration’s directive to discontinue new
consumer access during our regulatory review process. In the future, you may
be able to receive health-related results, dependent upon FDA marketing
authorization. ‘
47
48
https://www.23andme.com/
49
http://biochem218.stanford.edu/
50
51
52
53
54
Quand la présentatrice lui a
annoncé ses origines
métissées, l'homme a
claironné que "l'huile et l'eau
ne se mélangent pas".
http://www.lexpress.fr/actualite/monde/amerique/videos-un-supremaciste-blanc-decouvre-ses-origines-africaines-en-direct_1299027.html
55
GWAS
56
• Il s’agissait de cas simples !
• En général, un ‘phénotype’ est associé avec plusieurs
variations dans plusieurs gènes et dépend également
des facteurs environnementaux !
• Exemple: la cigarette…
• La variation génétique n’est pas forcément
directement la cause. On parle d’association (GWAS) !
57
• GWAS: genome wide association studies
• QTL: Quantitative Trait Locus: ‘refer to
phenotypes (characteristics) that vary in
degree and can be attributed to polygenic
effects, i.e., product of two or more genes,
and their environment’ (wikipedia); couleur
de la peau, …
• Meta-analysis…stats….’too big to fail’
– Exemple: BMI
58
59
https://www.genome.gov/26525384
60
61
Le gène FTO et la variation A-> T (rs9939609)
http://opensnp.org/snps/rs9939609
62
!!!! Un gène ‘de la paresse’ : NON !!!
B. Strasser
63
• Nombre de maladies avec une base génétique
(causative + susceptibilité): ~ 3900
•
http://www.omim.org/search?index=entry&start=1&limit=10&search=&sort=score+desc%2C+prefix_sort+desc&
limit=10&prefix=%23&date_created=-&date_updated=-
• Nombre de gènes dont une variation ‘cause’ une
maladie:~2500
•
http://www.uniprot.org/uniprot/?query=annotation%3A%28type%3Adisease+%22the+disease+is+caused+by%2
2%29&sort=score
64
BRCA1
Angélina Jolie et les autres…..
65
CCTCTGCTCTGGGTAAAGTTAGTGGAGTCCCGGGAAAGGGACAGGGGGCCCAAGTGATGCTCTGGGGTAC
TGGCGTGGGAGAGTGGATTTCCGAAGCTGACAGATGGTTCATTGGAACAGAAAGAAATGGATTTATCTGC
TCTTCGCGTTGAAGAAGTACAAAATGTCATTAATGCTATGCAGAAAATCTTAGAGTGTCCCATCTGTCTG
GAGTTGATCAAGGAACCTGTCTCCACAAAGTGTGACCACATATTTTGCAAATTTTGCATGCTGAAACTTC
TCAACCAGAAGAAAGGGCCTTCACAGTGTCCTTTATGAGCCTACAAGAAAGTACGAGATTCAGTCAACTT
GTTGAAGAGCTATTGAAAACCATTTGTGCTTTTCAGCTTGACACAGGTTTGGAGTATGCAAACAGCTATA
ATTTTGCAAAAAAGGAAAATAACTCTCCTGAACATCTAAAAGATGAAGTTTCTATCATCCAAAGTATGGG
CTACAGAAACCGTGCCAAAAGACTTCTACAGAGTGAACCCGAAAATCCTTCCTTGGAAACCAGTCTCAGT
GTCCAACTCTCTAACCTTGGAACTGTGAGAACTCTGAGGACAAAGCAGCGGATACAACCTCAAAAGACGT
CTGTCTACATTGAATTGGGATCTGATTCTTCTGAAGATACCGTTAATAAGGCAACTTATTGCAGTGTGGG
AGATCAAGAATTGTTACAAATCACCCCTCAAGGAACCAGGGATGAAATCAGTTTGGACTCTGCAAAAAAG
GCTGCTTGTGAATTTTCTGAGACGGATGTAACAAATACTGAACATCATCAACCCAGTAATAATGATTTGA
ACACCACTGAGAAGCGTGCAGCTGAGAGGCATCCAGAAAAGTATCAGGGTAGTTCTGTTTCAAACTTGCA
TGTGGAGCCATGTGGCACAAATACTCATGCCAGCTCATTACAGCATGAGAACAGCAGTTTATTACTCACT
AAAGACAGAATGAATGTAGAAAAGGCTGAATTCTGTAATAAAAGCAAACAGCCTGGCTTAGCAAGGAGCC
AACATAACAGATGGGCTGGAAGTAAGGAAACATGTAATGATAGGCGGACTCCCAGCACAGAAAAAAAGGT
AGATCTGAATGCTGATCCCCTGTGTGAGAGAAAAGAATGGAATAAGCAGAAACTGCCATGCTCAGAGAAT
CCTAGAGATACTGAAGATGTTCCTTGGATAACACTAAATAGCAGCATTCAGAAAGTTAATGAGTGGTTTT
CCAGAAGTGATGAACTGTTAGGTTCTGATGACTCACATGATGGGGAGTCTGAATCAAATGCCAAAGTAGC
TGATGTATTGGACGTTCTAAATGAGGTAGATGAATATTCTGGTTCTTCAGAGAAAATAGACTTACTGGCC
AGTGATCCTCATGAGGCTTTAATATGTAAAAGTGAAAGAGTTCACTCCAAATCAGTAGAGAGTAATATTG
AAGACAAAATATTTGGGAAAACCTATCGGAAGAAGGCAAGCCTCCCCAACTTAAGCCATGTAACTGAAAA
TCTAATTATAGGAGCATTTGTTACTGAGCCACAGATAATACAAGAGCGTCCCCTCACAAATAAATTAAAG
CGTAAAAGGAGACCTACATCAGGCCTTCATCCTGAGGATTTTATCAAGAAAGCAGATTTGGCAGTTCAAA
AGACTCCTGAAATGATAAATCAGGGAACTAACCAAACGGAGCAGAATGGTCAAGTGATGAATATTACTAA
TAGTGGTCATGAGAATAAAACAAAAGGTGATTCTATTCAGAATGAGAAAAATCCTAACCCAATAGAATCA
CTCGAAAAAGAATCTGCTTTCAAAACGAAAGCTGAACCTATAAGCAGCAGTATAAGCAATATGGAACTCG
AATTAAATATCCACAATTCAAAAGCACCTAAAAAGAATAGGCTGAGGAGGAAGTCTTCTACCAGGCATAT
TCATGCGCTTGAACTAGTAGTCAGTAGAAATCTAAGCCCACCTAATTGTACTGAATTGCAAATTGATAGT
TGTTCTAGCAGTGAAGAGATAAAGAAAAAAAAGTACAACCAAATGCCAGTCAGGCACAGCAGAAACCTAC
AACTCATGGAAGGTAAAGAACCTGCAACTGGAGCCAAGAAGAGTAACAAGCCAAATGAACAGACAAGTAA
AAGACATGACAGCGATACTTTCCCAGAGCTGAAGTTAACAAATGCACCTGGTTCTTTTACTAAGTGTTCA
AATACCAGTGAACTTAAAGAATTTGTCAATCCTAGCCTTCCAAGAGAAGAAAAAGAAGAGAAACTAGAAA
CAGTTAAAGTGTCTAATAATGCTGAAGACCCCAAAGATCTCATGTTAAGTGGAGAAAGGGTTTTGCAAAC
TGAAAGATCTGTAGAGAGTAGCAGTATTTCATTGGTACCTGGTACTGATTATGGCACTCAGGAAAGTATC
TCGTTACTGGAAGTTAGCACTCTAGGGAAGGCAAAAACAGAACCAAATAAATGTGTGAGTCAGTGTGCAG
CATTTGAAAACCCCAAGGGACTAATTCATGGTTGTTCCAAAGATAATAGAAATGACACAGAAGGCTTTAA
GTATCCATTGGGACATGAAGTTAACCACAGTCGGGAAACAAGCATAGAAATGGAAGAAAGTGAACTTGAT
GCTCAGTATTTGCAGAATACATTCAAGGTTTCAAAGCGCCAGTCATTTGCTCCGTTTTCAAATCCA....
Breast Cancer
BRCA1 gene
S. Antonarakis
Dominant, une allèle suffit
66
http://www.uniprot.org/uniprot/P38398#section_features
Variant en position 22 et 23 de la séquence en acide aminé…
Protéine qui fait partie du système de réparation de l’ADN
67
Faux positif: ‘A positive test result indicates that a person has inherited a
known harmful mutation in BRCA1 or BRCA2 and, therefore, has an
increased risk of developing certain cancers. However, a positive test result
cannot tell whether an individual will actually develop cancer or when.
Many women who inherit a harmful BRCA1 or BRCA2 mutation will never
develop breast or ovarian cancer.’
(…)
Faux négatif: ‘Scientists continue to discover new BRCA1 and BRCA2
mutations and have not yet identified all potentially harmful ones.’
(…)
Inconnu: ‘Sometimes, a genetic test finds a change in BRCA1 or BRCA2 that
has not been previously associated with cancer. This type of test result may
be described as “ambiguous” (often referred to as “a genetic variant of
uncertain significance”) because it isn’t known whether the gene change
affects a person’s risk of developing cancer. One study found that 10
percent of women who underwent BRCA1 and BRCA2 mutation testing had
this type of ambiguous result ‘
http://www.cancer.gov/cancertopics/factsheet/Risk/BRCA
68
69
Forensic
genetics
70
doi: 10.1093/bib/bbm006
71
•
http://crime-expertise.org/investigation-scene-de-crime/traces-et-indices/lorsque-ladn-trace-votre-portrait-robot
72
• Forensic genetics (couleur des yeux; IrisPlex)
Couleur bleu / brun: 2 gènes : OCA2 (protéine P) et HERC2. L’expression de la
protéine P est sous le contrôle d’un ‘enhancer’ présent dans un intron du
gène HERC2. rs12913832 est un polymorphisme qui influence l’activité du
enhancer (http://web.expasy.org/prolune/instantanes/044/).
Autres couleurs/gènes: SLC24A4, SLC45A2 (MATP), TYR et IRF4
• used the six currently most eye colour-informative single nucleotide
polymorphisms (SNPs) that previously revealed prevalence-adjusted
prediction accuracies of over 90% for blue and brown eye colour in 6168
Dutch Europeans (rs12913832 (HERC2), rs1800407 (OCA2), rs12896399
(SLC24A4), rs16891982 (SLC45A2 (MATP), rs1393350 (TYR ) and
rs12203592 (IRF4).
• Analysis done with 31 pg of DNA ~ 6 human diploid cells
• Publication: doi:10.1016/j.fsigen.2010.02.004
73
Phénotype: bleu (%) , intermédiaire (%) , brun (%)
74
Phénotype: bleu (%) , intermédiaire (%) , brun (%)
75
• Forensic genetics (forme du visage)
• genome-wide association study (GWAS) for facial shape phenotypes
• 5 gènes: PRDM16, PAX3, TP63, C5orf50, COL17A1
• Publication: doi:10.1371/journal.pgen.1002932
76
• Forensic genetics (détermination de l’âge)
•
Accumulation de mutations somatiques dans le génome mitochondrial avec l’âge;
certaines mutations sont ‘systématiques’; étude de l’ADN mitochondrial
permettrait de prédire l’âge…(PMID: 12653657)
•
The T cell receptor (TCR) consists of either of two types of heterodimers: αβTCRs
or γδTCRs. Generation of T cell repertoires with diverse antigen specificities is
achieved by random rearrangement of TCR gene segments (V-D-J, variable,
diversity, and joining) in thymus. This process is initiated by recognition of
recombination signal sequences (RSS) that flank the coding sequence and during
this process the two signal ends are circularized, forming an extrachromosomal
circular excision product. These so-called T cell receptor excision circles—TRECs—
are stable but are not replicated during mitosis and are consequently diluted with
each cell division (doi: 10.1155/2013/408638)
77
C 1- Métagénomique, universalité
de l'ADN, biodiversité d'une pizza
C1
78
Metagenomics
study of genetic material recovered directly from
environmental samples
Venter’s Sorcerer II
•
Global Ocean Sampling (C. Venter)
1ml sea water: 1 mo bacteria and 10 mo virus
•
Whale fall (AAFZ00000000.1)
•
Soil, sand beach, New-York air, …
•
Human fluids, mouse gut (millions of bacteria within human body)
•
Water treatment industry…
•
Planet Mars (C. Venter)
79
http://www.technologyreview.com/news/429662/genome-hunters-go-after-martian-dna/
80
La pizza métagénomique….
● Du cheval dans les lasagnes ?
● Du cheval dans le steak tartare au bœuf….
● Combien d’espèces dans une pizza ?
81
•
• Activités (Atelier 3b - La pizza métagénomique)
– Activité 'papier': BLAST 'papier'
– Activité Bioinformatique: vérifier les résultats du BLAST
'papier' (BLAST UniProt)
– Activité 'papier' supplémentaire possible: Classification
des espèces sur un arbre phylogénétique
– Lien avec l'actualité: du cheval dans vos lasagnes ?
82
Activité ‘BLAST papier’
83
BLAST UniProt
http://education.expasy.org/bioinformatique/Atelier3b.html
84
http://education.expasy.org/bioinformatique/pdfs/Poster_arbre.pdf
85
C 2 - Alignement multiple et
Phylogénétique
C2
86
•
Théorie: Introduction - comment construire un arbre phylogénétique avec des
séquences de protéines (pdf)
•
Activités (Atelier 3 - Phylogénie...)
– Activité 'papier' (pour appréhender le principe de l'analyse phylogénétique
(CWv quiz 7, quiz 17)
– Activité 'papier' (pour appréhender le principe de l'analyse
phylogénétique)(pdf alignement ARP2)
– Activité Bioinformatique pour débuter (alignement multiple et construction
d'arbres phylogénétiques): Philophylo
– Activité Bioinformatique: alignement de séquences choisies dans la banque
de données UniProt : BIST scénario 5: alignement multiple
– Activité 'avancés' (phylogeny.fr via Atelier 3)
– Activité 'avancés' (phylogeny.fr via BIST)
87
• http://education.expasy.org/bioinformatique/Atelier3.html
88
89
http://tecfa.unige.ch/perso/lombardf/bist/ressources/exercice-alignement.pdf
90
Philophylo
91
92
Qui est le cousin de qui ?
93
Alignement multiple
• Choisir un nom de gène (INS, FOXP2, HBB) - Exemples
Depuis UniProt: www.uniprot.org
• Copier/coller le nom du gène dans ‘query’
• Cliquer sur ‘Search’
• Cliquer sur ‘Show only reviewed’
• Cliquer sur ‘Restrict term “XXX" to gene name
• Sélectionner plusieurs entrées (avec le même ‘entry name’).
• Cliquer sur ‘Align’ (barre verte en bas de la page)
• Cliquer sur ‘Similarity’ (colonne de droite)
• Plus d’info sur BIST: scénario 5
94
95
• Bonus protéiné…
96
Quelques notions de base…
●
●
●
●
Cellules
Chromosomes
ADN (Génome, Gène)
Protéine
● Les protéines sont essentielles pour la construction et le fonctionnement de
tous les êtres vivants.
= Chaîne d’acides aminés de longueur variable.
Il existe 20 acides aminés différents
En fonction des acides aminés présents, la protéine aura une forme et une
fonction spécifiques….
97
En musique…
http://education.expasy.org/bioinformatique/Atelier4.html
http://www.chromosomewalk.ch/gene/?g=622#2
98
99
Quelques autres protéines célèbres…
● Le collagène
● L’insuline
● L’EPO
● L’hormone de croissance
● La pepsine
● Les anticorps
● L’hémoglobine
100
http://www.youtube.com/watch?v=wJyUtbn0O5Y
101
De l’ADN aux protéines…
ADN (gène)
atggccctgtggatgcgcctcctgcccctgctggcgctgctggccctctggggacctgac
taccgggacacctacgcggaggacggggacgaccgcgacgaccgggagacccctggactg
ARN messager
auggcccuguggaugcgccuccugccccugcuggcgcugcuggcccucuggggaccugac
Protéine (séquence en acides aminés)
MALWMRLLPLLALLALWGPD
102
De l’ADN aux protéines…
ADN (gène)
atggccctgtggatgcgcctcctgcccctgctggcgctgctggccctctggggacctgac
taccgggacacctacgcggaggacggggacgaccgcgacgaccgggagacccctggactg
ARN messager
auggcccuguggaugcgccuccugccccugcuggcgcugcuggcccucuggggaccugac
Protéine (séquence en acides aminés)
MALWMRLLPLLALLALWGPD
103
De l’ADN aux protéines…
104