Support de cours (cours_polymorphisme)

Download Report

Transcript Support de cours (cours_polymorphisme)

Recherche et analyse
de polymorphismes SNP
Alexis Dereeper
Formation Bio-informatique Apimet 2013
But du TP
Short reads Solexa
• Connaître et manipuler des packages/outils
disponibles pour la recherche de SNP et INDEL à
partir de données NGS
(assemblage de données NGS)
Mapping SAM
• Réfléchir sur les difficultés rencontrées liées aux
nouvelles technologies de séquençage
(différencier erreur de séquençage, paralogues et
variation allélique)
Variations
alléliques
1
1998
2341
• Détecter les SNP et pouvoir affecter les génotypes
aux différentes positions polymorphes
• Exploiter simplement les données de
polymorphismes via une application Web
(diversité génétique, DL)
• Obtenir un jeu de données exploitables à envoyer
pour le design d’une puce SNP haut-débit
(technologie Illumina VeraCode)
Ind1
Ind2
Ind3
A/G
T/C Liste de SNP
T/G
ATTGTGTCGTAACGTATGTCATGTCGT
ATTGTGTCGGAACGTATGTCATGTCGT
ATTGTGTCGKAACGTATGTCATGTCGT
Assignation des génotypes
Design de puces
Illumina
Exploitation des
données de
polymorphismes
Tablet
• Outil
graphique de
visualisation
d’assemblage de
données NGS
• Accepte
différents
formats:
ACE, SAM, BAM
Alexis Dereeper
Formation Bio-informatique Apimet 2013
GATK (Genome Analysis ToolKit)
• Librairie logicielle pour l'analyse de
données NGS.
• Développé pour l'analyse des projets de
reséquençage médical chez l'Humain
(1000 Génomes, The Cancer Genome Atlas)
PREPROCESS:
* Index human genome (Picard), we used HG18 from UCSC.
* Convert Illumina reads to Fastq format
* Convert Illumina 1.6 read quality scores to standard Sanger scores
FOR EACH SAMPLE:
• Inclut des outils d'analyse de profondeur,
recalibrateur de score de qualité, détection
de SNP/InDel
• Complémentaire des 2 autres packages:
SamTools, PicardTools
Alexis Dereeper
1. Align samples to genome (BWA), generates SAI files.
2. Convert SAI to SAM (BWA)
3. Convert SAM to BAM binary format (SAM Tools)
4. Sort BAM (SAM Tools)
5. Index BAM (SAM Tools)
6. Identify target regions for realignment (Genome Analysis Toolkit)
7. Realign BAM to get better Indel calling (Genome Analysis Toolkit)
8. Reindex the realigned BAM (SAM Tools)
9. Call Indels (Genome Analysis Toolkit)
10. Call SNPs (Genome Analysis Toolkit)
11. View aligned reads in BAM/BAI (Integrated Genome Viewer)
Formation Bio-informatique Apimet 2013
Détection automatique de SNP à partir d’assemblage SAM
Exemple de chaine de traitement
réalisable avec Galaxy SouthGreen:
Fastq
FastQ Groomer
PicardTools
Mapping BWA
GATK
SAM assembly
Add or Replace Groups
BAM assembly including ReadGroups
IndelRealigner
UnifiedGenotyper
VCF file
Alexis Dereeper
DepthOfCoverage
Depth file
Formation Bio-informatique Apimet 2013
Fastq (RC1)
Fastq (RC2)
Fastq (RC3)
Fastq (RC4)
FastQ Groomer
FastQ Groomer
FastQ Groomer
FastQ Groomer
Mapping BWA
Mapping BWA
Mapping BWA
Mapping BWA
Add or Replace Groups
BAM with read group
Add or Replace Groups
Add or Replace Groups
….
Add or Replace Groups
BAM with read group BAM with read group BAM with read group
mergeSam
Global BAM with read group
IndelRealigner
UnifiedGenotyper
DepthOfCoverage
VCF file
Depth file
Format VCF (Variant Call Format)
Avantages: description des variations pour chaque position + assignation aux génotypes
##fileformat=VCFv4.0
##fileDate=20090805
##source=myImputationProgramV3.1
##reference=1000GenomesPilot-NCBI36
##phasing=partial
##INFO=<ID=NS,Number=1,Type=Integer,Description="Number of Samples With Data">
##INFO=<ID=DP,Number=1,Type=Integer,Description="Total Depth">
##INFO=<ID=AF,Number=.,Type=Float,Description="Allele Frequency">
##INFO=<ID=AA,Number=1,Type=String,Description="Ancestral Allele">
##INFO=<ID=DB,Number=0,Type=Flag,Description="dbSNP membership, build 129">
##INFO=<ID=H2,Number=0,Type=Flag,Description="HapMap2 membership">
##FILTER=<ID=q10,Description="Quality below 10">
##FILTER=<ID=s50,Description="Less than 50% of samples have data">
##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype">
##FORMAT=<ID=GQ,Number=1,Type=Integer,Description="Genotype Quality">
##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Read Depth">
##FORMAT=<ID=HQ,Number=2,Type=Integer,Description="Haplotype Quality">
#CHROM POS
ID
REF ALT
QUAL FILTER INFO
20
14370
rs6054257 G
A
29
PASS
NS=3;DP=14;AF=0.5;DB;H2
20
17330
.
T
A
3
q10
NS=3;DP=11;AF=0.017
Alexis Dereeper
FORMAT
NA00001
NA00002
GT:GQ:DP:HQ 0|0:48:1:51,51 1|0:48:8:51,51
GT:GQ:DP:HQ 0|0:49:3:58,50 0|1:3:5:65,3
Formation Bio-informatique Apimet 2013
Fastq (RC1)
Fastq (RC2)
Fastq (RC3)
Fastq (RC4)
FastQ Groomer
FastQ Groomer
FastQ Groomer
FastQ Groomer
Mapping BWA
Mapping BWA
Mapping BWA
Mapping BWA
Add or Replace Groups
BAM with read group
Add or Replace Groups
Add or Replace Groups
….
Add or Replace Groups
BAM with read group BAM with read group BAM with read group
mergeSam
Global BAM with read group
IndelRealigner
Filtered VCF
VariantFiltration
Phased VCF
ReadBackedPhasing
UnifiedGenotyper
DepthOfCoverage
VCF file
Depth file
Autres fonctionalités GATK
• Module DepthOfCoverage:
Permet de renseigner de la profondeur de séquençage pour chaque gène, chaque position et
chaque individu
• Module ReadBackedPhasing:
Permet de définir dans la mesure du possible les associations d’allèles (phase ou haplotype)
quand il y a hétérozygotie…
Et non
AGG
GGA
Alexis Dereeper
Formation Bio-informatique Apimet 2013
SNiPlay:
application Web
pour l’analyse du
polymorphisme
http://sniplay.cirad.fr
Alexis Dereeper
Formation Bio-informatique Apimet 2013
Fastq (RC1)
Fastq (RC2)
Fastq (RC3)
Fastq (RC4)
FastQ Groomer
FastQ Groomer
FastQ Groomer
FastQ Groomer
Mapping BWA
Mapping BWA
Mapping BWA
Mapping BWA
Add or Replace Groups
BAM with read group
Add or Replace Groups
Add or Replace Groups
….
Add or Replace Groups
BAM with read group BAM with read group BAM with read group
mergeSam
Global BAM with read group
IndelRealigner
UnifiedGenotyper
DepthOfCoverage
VCF file
Depth file
Options de SNiPlay
Cocher format VCF
Charger fichier VCF
Charger référence
Charger fichier de profondeur
Sélectionner génome du Riz
Design de puces Illumina
Fichier de soumission pour Illumina
Fichier de génotypage
Analyse avec le logiciel BeadStudio
Coordonnées
cartésiennes
Alexis Dereeper
Formation Bio-informatique Apimet 2013
Partage d’allèles entre
groupes
External file (optional)
Individu, group
Ind1, Table
Ind2, Table
Ind3, Table
Ind4, East
Ind5, East
Ind6, East
Ind7, East
Ind8, West
Alexis Dereeper
Formation Bio-informatique Apimet 2013
Annotation
des SNPs
Alexis Dereeper
Formation Bio-informatique Apimet 2013
Annotation
des SNPs
Alexis Dereeper
Formation Bio-informatique Apimet 2013
Fichiers alléliques
cARB 1
cSYR 2
cARA 3
• Format PED
0
0
0
0
0
0
1
1
1
0
0
0
1 1
1 1
1 1
1 1
1 1
1 1
3 3
3 3
3 3
3 3
1 3
3 3
4 4
4 4
4 4
2 2
2 2
2 2
2 2
2 2
2 2
1 1
1 1
1 1
4 4
4 4
4 4
• Format DARwin
@DARwin 5.0 33
20
N° 50
50
1
1
1
2
1
1
3
1
1
4
1
1
ALLELIC - 2
122
1
1
1
1
122
1
1
1
1
218
3
3
3
3
• Format .inp pour Phase
33
10
P 49 121 217 244 260 289
SSSSSSSSSS
#cARB
A A G G T C C A T T
A A G G T C C A T T
#cSYR
A A G A T C C A T C
A A G G T C C A T T
218
3
3
3
3
245
3
1
3
3
245
3
3
3
3
261
4
4
4
4
261
4
4
4
4
290
2
2
2
2
290
2
2
2
2
356
2
2
2
2
• Format pour TASSEL (génétique d’association)
33
50
cARB
cSYR
cARA
cORL
cLAR
Alexis Dereeper
10:2
122
A:A
A:A
A:A
A:A
A:G
218
A:A
A:A
A:A
A:A
A:G
245
G:G
G:G
G:G
G:G
A:G
261
G:G
A:G
G:G
G:G
A:G
290
T:T
T:T
T:T
T:T
C:T
356
C:C
C:C
C:C
C:C
C:C
461
C:C
C:C
C:C
C:C
C:C
467
A:A
A:A
A:A
A:A
A:A
Formation Bio-informatique Apimet 2013
560
T:T
T:T
T:T
T:T
T:T
T:T
C:T
T:T
T:T
C:T
4 4
2 4
4 4
Analyse de
diversité
Librairie SeqLib
Haplotype peu
fréquent
Réseaux
d’haplotypes
Haplotypes fréquents
Distance séparant
les 2 haplotypes
(nb de mutations)
Distribution des groupes
Au sein de cet haplotype
Alexis Dereeper
Formation Bio-informatique Apimet 2013