New technologies for identifying genes - Cours L3 Bichat 2012-2013

Download Report

Transcript New technologies for identifying genes - Cours L3 Bichat 2012-2013

Génétique des
Maladies Multifactorielles
Stéphanie Debette
MCU-PH Epidémiologie – Neurologie Lariboisière
[email protected]
Génétique des maladies multifactorielles
 Approche épidémiologique
 Epidémiologie génétique =
 Branche de l’épidémiologie qui étudie le rôle de
facteurs génétiques et de leur interaction avec
des facteurs environnementaux dans la
survenue de maladies
Khoury et al., Fundamentals of Genetic Epidemiology,
Oxford University Press 1993
Génétique des maladies multifactorielles:
pourquoi?
 Physiopathologie:

Meilleure compréhension des mécanismes moléculaires
conduisant à la maladie
 Prédiction de risque:
Identification de populations à risque de développer
maladie, en fonction de patrimoine génétique
 Prévention ciblée (ou « Médecine personnalisée »)

 Pharmacogénétique:
Identification de meilleurs répondeurs à traitement ou
d’individus à risque accru d’effets secondaires
 « Traitement personnalisé »

McCarthy, Nat Rev Med 2008
Génétique des maladies multifactorielles:
pourquoi?
 Physiopathologie:

Meilleure compréhension des mécanismes moléculaires
conduisant à la maladie
 Prédiction de risque:
Identification de populations à risque de développer
maladie, en fonction de patrimoine génétique
 Prévention ciblée (ou « Médecine personnalisée »)

 Pharmacogénétique:
Identification de meilleurs répondeurs à traitement ou
d’individus à risque accru d’effets secondaires
 « Traitement personnalisé »

McCarthy, Nat Rev Med 2008
Epidemiologie génétique  Physiopathologie
Identification de facteurs de susceptibilité génétique
Meilleure compréhension de biologie sous-jacente
Nouvelles
Cibles thérapeutiques
Biomarqueurs
ex: monitorer
évolution maladie
Prévention
ex: mise en évidence
FDR environnemental
McCarthy, Nat Rev Genet 2008
Epidemiologie génétique  Physiopathologie
Identification de facteurs de susceptibilité génétique
Meilleure compréhension de biologie sous-jacente
Nouvelles
Cibles thérapeutiques
Biomarqueurs
ex: monitorer
évolution maladie
Prévention
ex: mise en évidence
FDR environnemental
McCarthy, Nat Rev Genet 2008
Exemple de la maladie de Crohn…
 Découverte gènes de susceptibilité maladie de Crohn a révélé
rôle central autophagie et exposition à microbes intestinaux
Abraham, NEJM 2009; Feero, NEJM 2010
Yano & Kurata, Nat Immunol 2009
Gène NOD2: détecteur intracellulaire de peptidoglycanes bactériens
Gène ATG16L1: dirige composants intracellulaires (microbes) vers lysosomes
 Nouvelles voies pour approches thérapeutiques
Targeting the human microbiome with antibiotics, probiotics, and prebiotics:
gastroenterology enters the metagenomics era. Preidis, Gastroenterology 2009
Epidemiologie génétique  Physiopathologie
Identification de facteurs de susceptibilité génétique
Meilleure compréhension de biologie sous-jacente
Nouvelles
Cibles thérapeutiques
Biomarqueurs
ex: monitorer
évolution maladie
Prévention
ex: mise en évidence
FDR environnemental
McCarthy, Nat Rev Genet 2008
Identification de FDR environnementaux
par la génétique…
 Tabac ↗ risque de polyarthrite rhumatoïde de 1.5 en
population générale, mais d’un facteur > 20 si certains
variants génétiques sur HLA et PTPN22 sont présents!
Klareskog, Arthritis Rheum 2006
 Amish porteurs de variant
génétique sur gène FTO ↗
risque obésité sont
protégés de obésité par
activité physique
Rampersaud, Arch Intern Med 2008;
Kilpeläinen, PLOS Med 2011
Génétique des maladies multifactorielles:
pourquoi?
 Physiopathologie:

Meilleure compréhension des mécanismes moléculaires
conduisant à la maladie
 Prédiction de risque:
Identification de populations à risque de développer
maladie, en fonction de patrimoine génétique
 Prévention ciblée (ou « Médecine personnalisée »)

 Pharmacogénétique:
Identification de meilleurs répondeurs à traitement ou
d’individus à risque accru d’effets secondaires
 « Traitement personnalisé »

McCarthy, Nat Rev Med 2008
Epidemiologie génétique  Prédiction de risque?
 Décevant jusqu’ici, car variants génétiques identifiés jusqu’ici
= associés à augmentation modeste de risque (OR < 1.5)
 Même quand risque relatif plus élevé, pour l’instant pas
d’application clinique dans majorité des cas:
 Allèle Epsilon4 de l’Apolipoprotéine E pour maladie d’Alzheimer
 Allèles HLA pour maladies autoimmunes
 Combiner
 Différents variants génétiques (« scores de risque »)
 Variants génétiques + autres biomarqueurs (circulants, imagerie…)
Cho & Gregersen, NEJM 2011
Ripatti, Lancet 2010
Génétique des maladies multifactorielles:
pourquoi?
 Physiopathologie:

Meilleure compréhension des mécanismes moléculaires
conduisant à la maladie
 Prédiction de risque:
Identification de populations à risque de développer
maladie, en fonction de patrimoine génétique
 Prévention ciblée (ou « Médecine personnalisée »)

 Pharmacogénétique:
Identification de meilleurs répondeurs à traitement ou
d’individus à risque accru d’effets secondaires
 « Traitement personnalisé »

McCarthy, Nat Rev Med 2008
Pharmacogénétique, Exemple
 CYP2C19 = enzyme impliquée dans bioactivation du clopidogrel
 Allele CYP2C19*2 du variant génétique rs4244285 = associé à risque ↑
d’évènements cardiovasculaires
Utilisation du Clopidogrel en fonction de génotype rs4244285 CYP2C19
chez patients traités par angioplastie pour syndrome coronarien aigu
 FDA / AHA: « boxed warning », évaluer au cas par cas
Scott, Clin Pharmacol Ther 2011
Génétique des maladies multifactorielles
I.
Maladies complexes/multifactorielles vs. mendéliennes
II. Etudes d’association génétique vs. analyses de liaison
III. Quelques rappels
I.
II.
III.
Variation génétique
Equilibre de Hardy-Weinberg
Déséquilibre de liaison
IV. Etudes d’association génétique (EAG)
I.
II.
Etudes d’association sur « gènes candidats »
Etudes d’association génétique pangénomiques
V. Analyse et interprétation des EAG
I.
II.
III.
Tests multiples
Hétérogénéité de population
Réplication
VI. Caractérisation des signaux identifiés, perspectives
Génétique des maladies multifactorielles
I.
Maladies complexes/multifactorielles vs. mendéliennes
II. Etudes d’association génétique vs. analyses de liaison
III. Quelques rappels
I.
II.
III.
Variation génétique
Equilibre de Hardy-Weinberg
Déséquilibre de liaison
IV. Etudes d’association génétique (EAG)
I.
II.
Etudes d’association sur « gènes candidats »
Etudes d’association génétique pangénomiques
V. Analyse et interprétation des EAG
I.
II.
III.
Tests multiples
Hétérogénéité de population
Réplication
VI. Caractérisation des signaux identifiés, perspectives
Maladies mendéliennes
 Maladies mendéliennes (ou monogéniques) = causées
par mutation dans un seul gène
 Trois modes de transmission:
– Autosomique dominant
– Autosomique récessif
– Récessif lié à l’X
Maladies complexes ou multifactorielles
 Maladies ayant de multiples facteurs de susceptibilité
génétiques et facteurs de risque environnementaux
 Ne suit pas un mode de transmission mendélien
 Différentes façon de mesurer contribution de facteurs
génétiques:
•
Héritabilité: proportion de variance phénotypique due à effets
génétiques
•
Risque de récurrence: compare proportion d’apparentés de
cas qui sont atteints par maladie versus proportion d’individus
atteints en population générale
Génétique des maladies multifactorielles
I.
Maladies complexes/multifactorielles vs. mendéliennes
II. Etudes d’association génétique vs. analyses de liaison
III. Quelques rappels
I.
II.
III.
Variation génétique
Equilibre de Hardy-Weinberg
Déséquilibre de liaison
IV. Etudes d’association génétique (EAG)
I.
II.
Etudes d’association sur « gènes candidats »
Etudes d’association génétique pangénomiques
V. Analyse et interprétation des EAG
I.
II.
III.
Tests multiples
Hétérogénéité de population
Réplication
VI. Caractérisation des signaux identifiés, perspectives
Outils en épidémiologie génétique
• Analyses de liaison (familles):
Examiner la co-transmission d’une
génération à l’autre du phénotype et
des allèles de marqueurs génétiques
• Etudes d’association génétique
(population générale,
cas/témoins):
Comparer fréquence des
variants génétiques, entre
patients et témoins
Courtesy Dr. Dupuis
Outils en épidémiologie génétique
• Analyses de liaison (familles):
Examiner la co-transmission d’une
génération à l’autre du phénotype et
des allèles de marqueurs génétiques
• Etudes d’association génétique
(population générale,
cas/témoins):
Comparer fréquence des
variants génétiques, entre
patients et témoins
plus puissant pour maladies complexes
Risch, Science 1996
Etudes d’association génétique
Single nucleotide polymorphism (SNP)
Copie 1
Copie 2
A
T
G
A/C T
T
C
A
T
G
A/C T
T
C
1000 patients avec AVC:
1000 témoins:
CC: n= 50
AC: n= 250
AA: n= 700
CC: n= 10
AC: n= 180
AA: n= 810
Etudes d’association génétique
• Un allèle est associé à un phénotype si sa fréquence diffère
plus entre cas et témoins que par le simple hasard.
 Cela n’implique PAS nécessairement un lien de causalité
Association indirecte
(observée)
Déséquilibre de liaison
Phénotype
Association directe
(non observée)
chromosome
A
Variant génotypé
B
Variant causal non observé
Génétique des maladies multifactorielles
I.
Maladies complexes/multifactorielles vs. mendéliennes
II. Etudes d’association génétique vs. analyses de liaison
III. Quelques rappels
I.
II.
III.
Variation génétique
Equilibre de Hardy-Weinberg
Déséquilibre de liaison
IV. Etudes d’association génétique (EAG)
I.
II.
Etudes d’association sur « gènes candidats »
Etudes d’association génétique pangénomiques
V. Analyse et interprétation des EAG
I.
II.
III.
Tests multiples
Hétérogénéité de population
Réplication
VI. Caractérisation des signaux identifiés, perspectives
Quelques chiffres…
• ~3 milliards de paires de bases (nucléotides) dans
séquence d’ADN humain
• 20,000 – 25,000 gènes:
– 1.5% du génome (reste contient ADN non-codant,
dont introns et séquences régulatrices)
– Taille variable, de x100 bases à > 2 millions de bases
• 99.9% de la séquence d’ADN est identique d’un individu
à l’autre
– Portion variable fait la différence…
Types de variation génétique
•
Single Nucleotide Polymorphism (SNP) =
polymorphisme mononucléotidique
–
–
Variation individuelle dans séquence nucléotidique
Plusieurs millions de SNPs, fréq >1% (<1% = mutation ou SNV)
Copie 1 Chr (brin+)
Copie 2 Chr (brin+)
A
T
G
A/C
T
T
C
A
T
G
A/C
T
T
C
2 Allèles possibles:
C ou A
3 Génotypes possibles:
CC, CA, AA
Types de variation génétique
Single Nucleotide Polymorphism (SNP) = polymorphisme mononucléotidique
– Variation individuelle dans séquence nucléotidique
– Plusieurs millions de SNPs, fréq >1% (<1% = mutation ou SNV)
– Conséquences:
• Neutre:
─
─
Séquence non codante, non régulatrice
Séquence codante mais « synonyme »:
exemple: ACC ou ACA  même acide aminé (thréonine)
• Modification taux d’expression de gène
─
Séquence régulatrice (non codante)
• Modification composition protéine:
─
─
─
Séquence codante «non-synonyme» ou «missense»
Séquence codante «non-sense» (induit codon stop)
Intron, site d’épissage (non codante)
Types de variation génétique

« Copy number variants » = CNV: segment d’ADN ou
gène présent en nombre variable de copies d’un
individu à l’autre
–
–
–
–

Perte ou gain
Taille variable (10,000 – 5,000,000 bases)
Découverte plus récente que SNPs
Intra- ou intergénique
Polymorphismes de répétition
–
–
–
Répétition de séquences en tandem, en nombre variable
Taille variable: Microsatellites, STR, VNTR
Intra- ou intergénique
Calcul de fréquences alléliques pour un SNP
Génotype N individus
%
AA
200
20%
AG
500
50%
GG
300
30%
TOTAL
1000
100%
Quelle est la fréquence de l’allèle A?
Calcul de fréquences alléliques pour un SNP
Génotype N individus
N
allèles
AA
200
400 A
AG
500
500 A
500 G
GG
300
600 G
TOTAL
1000
2000
Quelle est la fréquence de l’allèle A?
Freq (A) = (200x2 + 500) / 2000 = 0.45
Quelle est la fréquence de l’allèle G?
Calcul de fréquences alléliques pour un SNP
Génotype N individus
N
allèles
AA
200
400 A
AG
500
500 A
500 G
GG
300
600 G
TOTAL
1000
2000
Quelle est la fréquence de l’allèle A?
Freq (A) = (200x2 + 500) / 2000 = 0.45
Quelle est la fréquence de l’allèle G?
Freq (G) = (300x2 + 500) / 2000 = 0.55
Génétique des maladies multifactorielles
I.
Maladies complexes/multifactorielles vs. mendéliennes
II. Etudes d’association génétique vs. analyses de liaison
III. Quelques rappels
I.
II.
III.
Variation génétique
Equilibre de Hardy-Weinberg
Déséquilibre de liaison
IV. Etudes d’association génétique (EAG)
I.
II.
Etudes d’association sur « gènes candidats »
Etudes d’association génétique pangénomiques
V. Analyse et interprétation des EAG
I.
II.
III.
Tests multiples
Hétérogénéité de population
Réplication
VI. Caractérisation des signaux identifiés, perspectives
Equilibre de Hardy-Weinberg
Dans une population dont l'effectif est infini (très grand),
panmictique (mariages au hasard), en l'absence de
mutation et de sélection, les fréquences alléliques et
génotypiques restent constantes d’une génération à
l’autre:
Fréquence du génotype aa = p2
Fréquence du génotype aA = 2pq
Fréquence du génotype AA = q2
où
p = fréquence de l’allèle a
q = fréquence de l’allèle A
Equilibre de Hardy-Weinberg
• Conditions de Hardy-Weinberg (HW) ne sont généralement
pas strictement remplies dans la plupart des populations,
mais généralement les génotypes suivent assez bien
l’équilibre de HW
• En l’absence d’équilibre de HW on doit se poser la question
des causes potentielles
 Par exemple lors de génotypage sur plateformes à haut débit,
l’absence d’équilibre de HW dans une population témoin est considéré
un signe de génotypage de mauvaise qualité
Equilibre de Hardy-Weinberg
• Comment tester si équilibre de Hardy-Weinberg est présent?
 Test de « Goodness of Fit »
où Oi = effectif observé pour génotype i
Ei = effectif attendu pour génotype i si équilibre de HW
 X2 suit une loi de Chi-2 à 1 degré de liberté
En effet, normalement pour un test de chi-2 de 2 x 3 classes (observé/attendu,
aa/aA/AA) il y a 2 degrés de liberté, mais ici on retire un degré de liberté
supplémentaire, car on estime les fréquences alléliques à partir des génotypes observés
 Si équilibre de HW, alors test de Chi-2 est non significatif
Déséquilibre de liaison
Soit 2 variants génétiques sur même chromosome
-Variant 1: Alleles “a” et “A”, fréquences = p(a), p(A)
-Variant 2: Alleles “b” et “B”, fréquences = p(b), p(B)
On a 4 combinaisons (ou haplotypes) possibles:
AB Ab aB ab
Si les deux variants sont indépendants,
i.e. en « équilibre de liaison », alors:
p(AB)=p(A) x p(B)
A/a
B/b
Déséquilibre de liaison
Soit 2 variants génétiques sur même chromosome
-Variant 1: Alleles “a” et “A”, fréquences = p(a), p(A)
-Variant 2: Alleles “b” et “B”, fréquences = p(b), p(B)
On a 4 combinaisons (ou haplotypes) possibles:
AB Ab aB ab
Si les deux variants ne sont pas indépendants,
ils sont dits en déséquilibre de liaison, i.e.
p(AB)≠p(A) x p(B)
A/a
B/b
 Fréquence de AB dépend non seulement de p(A) et p(B)
mais aussi du degré de déséquilibre de liaison (r2, D’)
Recombinaison
A/a
B/b
Indépendants
Recombinaison
A/a
B/b
Dépendants
Etudes d’association génétique
• Un allèle est associé à un phénotype si sa fréquence diffère
plus entre cas et témoins que par le simple hasard.
 Cela n’implique PAS nécessairement un lien de causalité
Association indirecte
(observée)
Déséquilibre de liaison
Phénotype
Association directe
(non observée)
chromosome
A
Variant génotypé
B
Variant causal non observé
Génétique des maladies multifactorielles
I.
Maladies complexes/multifactorielles vs. mendéliennes
II. Etudes d’association génétique vs. analyses de liaison
III. Quelques rappels
I.
II.
III.
Variation génétique
Equilibre de Hardy-Weinberg
Déséquilibre de liaison
IV. Etudes d’association génétique (EAG)
I.
II.
Etudes d’association sur « gènes candidats »
Etudes d’association génétique pangénomiques
V. Analyse et interprétation des EAG
I.
II.
III.
Tests multiples
Hétérogénéité de population
Réplication
VI. Caractérisation des signaux identifiés, perspectives
Etudes d’association génétique
• Etudes d’association sur “gènes candidats”:
– Tester association de phénotype avec polymorphismes
génétiques candidats
Basé sur hypothèses a priori sur physiopathologie
– Centaines d’études d’association gène candidat publiées sur
AVC, HSB, infarctus: peu de loci répliqués de façon convaincante
– Principaux problèmes méthodologiques
 Petits effectifs
 Absence de réplication pré-planifiée
 Mauvais candidat ...
Etudes gène candidat
• Exemples d’hypothèses a priori conduisant à la
sélection d’un gène candidat:
– Expérimentation animale:
Variants génétiques
dans LRP1 =
associés aux
anévrysmes aorte
chez l’homme?
Inactivation gène LRP1 dans
cell. Musculaires lisses souris
Anévrysmes
Boucher, Science 2003
Etudes gène candidat
• Exemples d’hypothèses a priori conduisant à la
sélection d’un gène candidat:
– Association connue avec d’autres maladies qui sont
corrélées avec la maladie d’intérêt
AVC
Alzheimer
Variants génétiques associés:
Gene
ApoE
CR1
BIN1
CLU
PICALM
SNP
chr Fréq allèle OR (AD)
epsilon
19
0.11
2.5
rs3818361
1 0.17219
1.18
rs744373
2 0.27341
1.17
rs11136000 8 0.40328
0.85
rs3851179 11 0.37258
0.87
Lambert, 2009; Seshadri, 2010; Naj, 2011; Hollingsworth, 2011
Etudes gène candidat
• Exemples d’hypothèses a priori conduisant à la sélection d’un
gène candidat:
– Fonction du gène laisse supposer que pourrait être impliqué dans
physiopathologie maladie
Gène de coagulation,
hémostase
AVC
Genes
Polymorphisms
OR (IC95%)
PAI-1 (Plasminogen activator inhibitor 1)
Catto, 1997
rs1799768 (-668/4G>5G)
NS
Jood, 2005
rs1799768
NS
CPB2 (Carbopeptidase B2, plasma = Thrombin-activable fibrinolysis inhibitor)
Leebeek, 2005
-438A>G, 505A>G,1040C>T
NS
Ladenvall, 2007
rs3742264/rs7337140/rs9526136/rs1926447/rs940 OR=2.5(1.4-4.4)
PLAT (Plasminogen activator, tissue)
Jood, 2005
rs2020918
NS
Yamada, 2006
rs2020918
NS
VKORC1 (vitamin K epoxide reductase complex, subunit 1)
Wang, 2006
rs2359612 (2255T>C)
OR=1.8(1.3-2.3)
Shen, 2007
rs2359612
OR=1.7(1.4-2.1)
Debette & Seshadri, Circ Cardiovasc Genet 2009
Etudes gène candidat
 Choix des SNPs:
• 1-100 par gènes, en fonction de coût et taille gène
• SNPs « indépendants » si possible, i.e. pas en déséquilibre de liaison
• SNPs potentiellement fonctionnels:
– Codant non-synonyme
– Dans région régulatrice (promoteur, 3’UTR, site de fixation facteur
transcription)
– Dans intron, site épissage
Etudes d’association génétique
• Etudes d’association génétique pangénomiques =
GWAS (genome-wide association study)
– Génotyper un très grand nombre (500,000-5,000,000) de
variants génétiques distribués sur l’ensemble des chromosomes
PAS d’hypothèse a priori sur les loci d’intérêt
– Récemment possible grâce au projet HapMap et aux
technologies de génotypage à haut débit
 HapMap = projet international décrivant les variations
génétiques fréquentes dans différents groupes ethniques
 Génotypage automatisé et rapide de milliers d’échantillons,
pour des x100,000 SNPs.
Zeggini, Nature Genet 2005
Création micropuce
Hybridisation d’ADN
« marqué »
Interpretation
informatisée
Détection
de fixation « séquence-spécifique »
Feero, NEJM 2010
GWAS – présentation résultats
GWAS visant à identifier FDR génétiques d’AVC (accident vasculaire cérébral)
• Population: 19,602 individus d’origine européenne
• Phénotype: AVC, 1,544 cas incidents
• SNPs: 2.5 Millions, sur les 22 autosomes
« Manhattan plot »
GWAS – présentation résultats
GWAS visant à identifier FDR génétiques d’AVC (accident vasculaire cérébral)
• Population: 19,602 individus d’origine européenne
• Phénotype: AVC, 1,544 cas incidents
• SNPs: 2.5 Millions, sur les 22 autosomes
« Manhattan plot »
p=5
x10-8
rs11833579
NINJ2 (chr12p13)
rs12425791
GWAS – présentation résultats
GWAS visant à identifier FDR génétiques d’AVC (accident vasculaire cérébral)
• Population: 19,602 individus d’origine européenne
• Phénotype: AVC, 1,544 cas incidents
• SNPs: 2.5 Millions, sur les 22 autosomes
« Manhattan plot »
p=5
x10-8
rs11833579
NINJ2 (chr12p13)
rs12425791
GWAS – présentation résultats
Représentation régionale des associations de SNPs avec AVC (chr 12p13)
Ikram et al., NEJM 2009
GWAS – contraintes logistiques
Gènes candidat (18 ou 11 SNPs)
• Très grands effectifs
nécessaires:
– > 1,000, voire > 10,000
– Plus si variant rare
– Plus si risque relatif faible
GWAS (500,000 ou 300,000 SNPs)
Zondervan, Nature Protocols 2007
GWAS – contraintes logistiques
Gènes candidat (18 ou 11 SNPs)
• Très grands effectifs
nécessaires:
– > 1,000, voire > 10,000
– Plus si variant rare
– Plus si risque relatif faible
GWAS (500,000 ou 300,000 SNPs)
Zondervan, Nature Protocols 2007
GWAS – contraintes logistiques
• Supercalculateurs pour analyser données
Nœud de
connexion,
travail sur
Unix
http://www.abysse-tech.com
GWAS – contraintes logistiques
• Coût encore élevés:
– ~ 500 Euros pour génotyper 1 SNP sur 2000 sujets
– ~ 400,000 Euros pour un GWAS sur 600,000 SNPs sur 2000 sujets
– ~ 800,000 Euros pour un GWAS sur 5,000,000 SNPs sur 2000 sujets
Etudes d’association génétique
• Gènes candidats
• Genome-wide
Limite analyse à régions
sélectionnées sur données ou
hypothèses préalables
Analyse de variants répartis sur
l’ensemble du génome, sans
hypothèse préalable
Avantages:
– Coûte moins cher
– Nécessite effectifs moindres
Avantages:
– Permet de découvrir de nouveaux
gènes (approche agnostique)
– Couvre mieux variation génétique
– A permis découverte x100 gènes
Inconvénients:
– Ne permet pas de découvrir de
nouveaux gènes, non suspectés
– Résultats très décevants en
moyenne
Inconvénients:
– Nécessite très grands effectifs
(collaborations…)
– Coût élevé
– Infrastructure (supercalculateur)
Génétique des maladies multifactorielles
I.
Maladies complexes/multifactorielles vs. mendéliennes
II. Etudes d’association génétique vs. analyses de liaison
III. Quelques rappels
I.
II.
III.
Variation génétique
Equilibre de Hardy-Weinberg
Déséquilibre de liaison
IV. Etudes d’association génétique (EAG)
I.
II.
Etudes d’association sur « gènes candidats »
Etudes d’association génétique pangénomiques
V. Analyse et interprétation des EAG
I.
II.
III.
Tests multiples
Hétérogénéité de population
Réplication
VI. Caractérisation des signaux identifiés, perspectives
Tests multiples
• Tests multiples en étude d’association génétique
– Multiples SNPs
– Dans un ou plusieurs gènes candidats
– Genome-wide (500,000 à 5,000,000 SNPs)
– Multiples phénotypes
• Comment en tenir compte dans interprétation
résultats?
Tests multiples
• H0: pas d’association entre SNP et M
Réalité
Décision
H0 faux
H0 vrai
Rejeter H0
correct
faux positif
Ne pas rejeter H0
faux négatif
correct
α = probabilité d’erreur de type I
= probabilité de rejeter H0, alors que H0 = vrai
= probabilité de déclarer une association à tort
α = seuil de significativité pour un seul test statistique (α = 0.05)
ß = probabilité d’erreur de type II
= probabilité de ne pas rejeter H0, alors que H0 = faux
= probabilité de ne pas détecter une association qui existe
1-ß = puissance du test
Tests multiples
• H0: pas d’association entre SNP et M
Réalité
Décision
H0 faux
H0 vrai
Rejeter H0
correct
faux positif
Ne pas rejeter H0
faux négatif
correct
α = probabilité d’erreur de type I
= probabilité de rejeter H0, alors que H0 = vrai
= probabilité de déclarer une association à tort
α = seuil de significativité pour un seul test statistique (α = 0.05)
ß = probabilité d’erreur de type II
= probabilité de ne pas rejeter H0, alors que H0 = faux
= probabilité de ne pas détecter une association qui existe
1-ß = puissance du test
Correction de Bonferroni
• Si n tests:
• seuil de significativité = 0.05/n
• ou garder seuil à 0.05 mais multiplier p par n
• Exemple
Test
p
Test1
0.047
Test2
0.03
Test3
0.009
Test4
0.10
Test5
0.02
Correction de Bonferroni
• Si n tests:
• seuil de significativité = 0.05/n
• ou garder seuil à 0.05 mais multiplier p par n
• Exemple
Test
p
Test1
0.047
Test2
0.03
Test3
0.009
Test4
0.10
Test5
0.02
Surcorrige (conservateur) si
tests ne sont pas indépendants,
par exemple:
SNPs en déséquilibre de liaison
Tests multiples
• En pratique…
– Bonferroni
– Autres méthodes: False Discovery Rate, Permutations
– Dans GWAS, généralement seuil fixe à p=5x10-8
 Correspond à ~ 1 Million de tests indépendants
 Reflète à peu près la réalité, quelque soit la densité des puces
 Pour populations européennes…
Hétérogénéité ethnique
• Il faut tenir compte de la structure de la population
 Faux positifs (associations faussement significatives) si « stratification »
de la population, i.e. si population contient plusieurs sous-populations
différant par leur caractéristiques génétiques, notamment fréquences
alléliques
Campbell, Nat Genet 2005
Population 2
Population 1
250
250
200
200
150
150
Population 1 + 2
100
100
350
50
50
300
0
0
cases
cases
controls
controls
Allele 2 =
20% in cases and controls
250
cases
controls
cases
controls
Allele 2 =
60% in cases and controls
200
150
100
50
0
cases
cases
controls
controls
Allele 2 = 33% in cases and 45% in controls!
Hétérogénéité ethnique
 Il est donc essentiel de…
– choisir des témoins de la même origine ethnique que les cas
– autant que possible du même pays, voire de la même région
 Si différentes origines géographiques dans population
étudiée, on peut:
– stratifier l’analyse par origine géographique (i.e. par pays)
– effectuer une analyse groupée en corrigeant sur la
stratification par des méthodes statistiques (contrôle
génomique, composantes principales)
Analyse en composantes principales = appliquée aux données
GWAS (génotypes pangénomiques) pour inférer des axes
continus de variation génétique
Price, Nat Genet 2006
Réplication +++
• Essentielle pour confirmer qu’une association est réelle
• Importance d’utiliser des échantillons de réplication
indépendants
 Credibilité augmentée quand groupes d’investigateurs multiples
Ikram, NEJM 2009


Réplication dans article initial
•
652/3613 caucasiens
•
2430 personnes avec 215 AVC
incidents afro-américains
Réplication dans étude asiatique
•
3784/3102 asiatiques
Matsushita, J Hum Genet 2010
Réplication +++
• Essentielle pour confirmer qu’une association est réelle
• Importance d’utiliser des échantillons de réplication
indépendants
 Crédibilité augmentée quand groupes d’investigateurs multiples
Ikram, NEJM 2009


Réplication dans article initial
•
652/3613 caucasiens
•
2430 personnes avec 215 AVC
incidents afro-américains
Réplication dans étude asiatique
•
3784/3102 asiatiques
Matsushita, J Hum Genet 2010
Rosand, NEJM 2010
Réplication +++
• Calcul d’effectif nécessaire doit tenir compte du “winner’s
curse”
 L’étude initiale tend typiquement à surestimer la force de l’association
• Même groupe ethnique initialement
 Du fait de différences en fréquence allélique, déséquilibre de liaison,
force de l’association
 Extension à d’autres groupes ethniques dans un 2è temps:
 Important pour la généralisabilité des résultats
 Permet d’affiner le signal du fait de différences de déséquilibre de liaison,
plus forte densité en SNPs...
Nature 2011; 475:163-165
Génétique des maladies multifactorielles
I.
Maladies complexes/multifactorielles vs. mendéliennes
II. Etudes d’association génétique vs. analyses de liaison
III. Quelques rappels
I.
II.
III.
Variation génétique
Equilibre de Hardy-Weinberg
Déséquilibre de liaison
IV. Etudes d’association génétique (EAG)
I.
II.
Etudes d’association sur « gènes candidats »
Etudes d’association génétique pangénomiques
V. Analyse et interprétation des EAG
I.
II.
III.
Tests multiples
Hétérogénéité de population
Réplication
VI. Caractérisation des signaux identifiés, perspectives
Refining the signal
 Where is the causative variant?
Ioannidis, Nat Rev Genet 2009
Refining the signal
 Where is the causative variant?
 Resequencing and fine mapping around confirmed signals
Ioannidis, Nat Rev Genet 2009
Refining the signal
 Where is the causative gene?
Ioannidis, Nat Rev Genet 2009
Refining the signal
 Where is the causative gene?
Genome annotation
Expression quantitative trait loci
Experiments…
Ioannidis, Nat Rev Genet 2009
Succès et limites des GWAS…
• En ~5 ans, GWAS ont identifié des centaines de nouveaux loci
associé avec diverses maladies, avec réplication solide
• La plupart dans gènes préalablement non suspectés
• Catalogue online (http://www.genome.gov/gwastudies)
71 gènes pour maladie de Crohn Franke, Nat Genet 2010
38 gènes pour diabète de type 2 Voight, Nat Genet 2010
25 gènes pour maladie coronaire Shunkert, Nat Genet 2011
12 gènes pour Alzheimer Hollingworth, Nat Genet 2011
4 gènes pour AVC (problème hétérogénéité…)
Published Genome-Wide Associations through 6/2010,
904 published GWA at p<5x10-8 for 165 traits
NHGRI GWA Catalog
www.genome.gov/GWAStudies
Prédisposition génétique aux AVC ischémiques
Module tolérance à ischémie cérébrale
Ikram, NEJM 2009
NINJ2
Predispose to arterial thrombosis
Dissection
Fibrillation auriculaire
PITX2, ZFHX2
9p21, HDAC9
Influence méchanismes responsables
des sous-types d’AVC ischémique
Athérome
Other
Gretarsdottir, Ann Neurol 2008
Bellenguez, Nat Genet 2012
Traylor, Lancet Neurol 2012
Maladie petites artères
?
Diabète
Obesité
Tabac
HTA
Hyperchol
?
↑ Risque de et susceptibilité aux
Facteurs de risque traditionnels
Succès et limites des GWAS…
• En ~5 ans, GWAS ont identifié des centaines de nouveaux loci
associé avec diverses maladies, avec réplication solide
• La plupart dans gènes préalablement non suspectés
• Catalogue online (http://www.genome.gov/gwastudies)
71 gènes pour maladie de Crohn 23% héritabilité
38 gènes pour diabète de type 2 10% héritabilité
25 gènes pour maladie coronaire 10% heritabilité
12 gènes pour Alzheimer
4 gènes pour AVC (problème hétérogénéité…)
Perspectives
Au-delà du GWAS…
• Variants rares
─ 1000 génome
─ Séquençage exons / genome entier (ESP-GO, CHARGE-S…)
─ Exome chip
• Copy number variants
─ Segments d’ADN présents en nombre variable de copies
• Modifications épigénétiques
─ Modulent « emballage » ADN dans noyau et influencent
expression
• ADN mitochondrial
Merci pour votre attention!