Support de cours
Download
Report
Transcript Support de cours
Recherche et analyse
de polymorphismes SNP
Alexis Dereeper
Formation Bio-informatique Apimet 2014
But du TP
Short reads Solexa • Connaître et manipuler des packages/ou5ls disponibles pour la recherche de SNP et INDEL à par5r de données NGS (assemblage de données NGS) • Réfléchir sur les difficultés rencontrées liées aux nouvelles technologies de séquençage (différencier erreur de séquençage, paralogues et varia5on allélique) • Détecter les SNP et pouvoir affecter les génotypes aux différentes posi5ons polymorphes • Exploiter simplement les données de polymorphismes via une applica5on Web • Diversité géné5que • Design de puces SNP (technologie Illumina Veracode) • Comparaison entre popula5ons Mapping SAM Varia4ons alléliques 1 A/G 1998 T/C Liste de SNP 2341 T/G Ind1 ATTGTGTCGTAACGTATGTCATGTCGT Ind2 ATTGTGTCGGAACGTATGTCATGTCGT Ind3 ATTGTGTCGKAACGTATGTCATGTCGT Assigna4on des génotypes Exploita4on des données de polymorphismes Tablet
• Ou5l graphique de visualisa5on d’assemblage de données NGS • Accepte différents formats: ACE, SAM, BAM Alexis Dereeper
Formation Bio-informatique Apimet 2014
GATK (Genome Analysis ToolKit)
• Librairie logicielle pour l'analyse de données NGS. • Développé pour l'analyse des projets de reséquençage médical chez l'Humain (1000 Génomes, The Cancer Genome Atlas) • Inclut des ou5ls d'analyse de profondeur, recalibrateur de score de qualité, détec5on de SNP/InDel • Autres packages pour l’analyse NGS: SamTools, PicardTools, BedTools Alexis Dereeper
PREPROCESS:
* Index human genome (Picard), we used HG18 from UCSC.
* Convert Illumina reads to Fastq format
* Convert Illumina 1.6 read quality scores to standard Sanger scores
FOR EACH SAMPLE:
1. Align samples to genome (BWA), generates SAI files.
2. Convert SAI to SAM (BWA)
3. Convert SAM to BAM binary format (SAM Tools)
4. Sort BAM (SAM Tools)
5. Index BAM (SAM Tools)
6. Identify target regions for realignment (Genome Analysis Toolkit)
7. Realign BAM to get better Indel calling (Genome Analysis Toolkit)
8. Reindex the realigned BAM (SAM Tools)
9. Call Indels (Genome Analysis Toolkit)
10. Call SNPs (Genome Analysis Toolkit)
11. View aligned reads in BAM/BAI (Integrated Genome Viewer)
Formation Bio-informatique Apimet 2014
Détection automatique de SNP à partir d’assemblage SAM
Exemple de chaine de traitement réalisable avec Galaxy SouthGreen: Fastq FastQ Groomer PicardTools Mapping BWA GATK SAM assembly Add or Replace Groups BAM assembly including ReadGroups IndelRealigner UnifiedGenotyper VCF file Alexis Dereeper
Formation Bio-informatique Apimet 2014
Fastq (RC1)
Fastq (RC2)
Fastq (RC3)
Fastq (RC4)
FastQ Groomer
FastQ Groomer
FastQ Groomer
FastQ Groomer
Mapping BWA
Mapping BWA
Mapping BWA
Mapping BWA
Add or Replace Groups
BAM with read group
Add or Replace Groups
Add or Replace Groups
….
Add or Replace Groups
BAM with read group BAM with read group BAM with read group
mergeSam
Global BAM with read group
IndelRealigner
UnifiedGenotyper
VCF file
Format VCF (Variant Call Format)
Avantages: descrip5on des varia5ons pour chaque posi5on + assigna5on aux génotypes ##fileformat=VCFv4.0
##fileDate=20090805
##source=myImputationProgramV3.1
##reference=1000GenomesPilot-NCBI36
##phasing=partial
##INFO=<ID=NS,Number=1,Type=Integer,Description="Number of Samples With Data">
##INFO=<ID=DP,Number=1,Type=Integer,Description="Total Depth">
##INFO=<ID=AF,Number=.,Type=Float,Description="Allele Frequency">
##INFO=<ID=AA,Number=1,Type=String,Description="Ancestral Allele">
##INFO=<ID=DB,Number=0,Type=Flag,Description="dbSNP membership, build 129">
##INFO=<ID=H2,Number=0,Type=Flag,Description="HapMap2 membership">
##FILTER=<ID=q10,Description="Quality below 10">
##FILTER=<ID=s50,Description="Less than 50% of samples have data">
##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype">
##FORMAT=<ID=GQ,Number=1,Type=Integer,Description="Genotype Quality">
##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Read Depth">
##FORMAT=<ID=HQ,Number=2,Type=Integer,Description="Haplotype Quality">
#CHROM POS
ID
REF ALT
QUAL FILTER INFO
20
14370
rs6054257 G
A
29
PASS
NS=3;DP=14;AF=0.5;DB;H2
20
17330
.
T
A
3
q10
NS=3;DP=11;AF=0.017
Alexis Dereeper
FORMAT
NA00001
NA00002
GT:GQ:DP:HQ 0|0:48:1:51,51 1|0:48:8:51,51
GT:GQ:DP:HQ 0|0:49:3:58,50 0|1:3:5:65,3
Formation Bio-informatique Apimet 2014
Fastq (RC1)
Fastq (RC2)
Fastq (RC3)
Fastq (RC4)
FastQ Groomer
FastQ Groomer
FastQ Groomer
FastQ Groomer
Mapping BWA
Mapping BWA
Mapping BWA
Mapping BWA
Add or Replace Groups
BAM with read group
Add or Replace Groups
Add or Replace Groups
….
Add or Replace Groups
BAM with read group BAM with read group BAM with read group
mergeSam
Global BAM with read group
IndelRealigner
Filtered VCF VariantFiltration
Phased VCF ReadBackedPhasing
UnifiedGenotyper
DepthOfCoverage
VCF file
Depth file Autres fonctionalités GATK
• Module DepthOfCoverage: Permet de renseigner de la profondeur de séquençage pour chaque gène, chaque posi5on et chaque individu • Module ReadBackedPhasing: Permet de définir dans la mesure du possible les associa5ons d’allèles (phase ou haplotype) quand il y a hétérozygo5e… Et non AGG GGA Alexis Dereeper
Formation Bio-informatique Apimet 2014
Alexis Dereeper
Formation Bio-informatique Apimet 2014
SNiPlay:
application Web
pour l’analyse du
polymorphisme
hmp://sniplay.cirad.fr Alexis Dereeper
Formation Bio-informatique Apimet 2014
Fastq (RC1)
Fastq (RC2)
Fastq (RC3)
Fastq (RC4)
FastQ Groomer
FastQ Groomer
FastQ Groomer
FastQ Groomer
Mapping BWA
Mapping BWA
Mapping BWA
Mapping BWA
Add or Replace Groups
BAM with read group
Add or Replace Groups
Add or Replace Groups
….
Add or Replace Groups
BAM with read group BAM with read group BAM with read group
mergeSam
Global BAM with read group
IndelRealigner
UnifiedGenotyper
DepthOfCoverage
VCF file
Depth file Op4ons de SNiPlay Cocher format VCF Charger le fichier VCF, la référence, le fichier de profndeur Charger les groupes d’individus Op4ons de SNiPlay Sélec4onner le génome du Riz Cocher le fait que la référence correspond aux mRNA Cocher l’analyse d’arbre de distance Partage d’allèles entre
groupes
External file (optional)
Individu, group
Ind1, Table
Ind2, Table
Ind3, Table
Ind4, East
Ind5, East
Ind6, East
Ind7, East
Ind8, West
Alexis Dereeper
Formation Bio-informatique Apimet 2014
Design de puces Illumina
Fichier de soumission pour Illumina Fichier de génotypage Analyse avec le logiciel BeadStudio Coordonnées cartésiennes Alexis Dereeper
Formation Bio-informatique Apimet 2014
Annotation
des SNPs
Alexis Dereeper
Formation Bio-informatique Apimet 2014
Annotation
des SNPs
Alexis Dereeper
Formation Bio-informatique Apimet 2014
Fichiers alléliques
• Format PED cARB 1
0
0
1
0
1 1
1 1
3 3
3 3
4 4
2 2
2 2
1 1
4 4
4 4
cSYR 2
0
0
1
0
1 1
1 1
3 3
1 3
4 4
2 2
2 2
1 1
4 4
2 4
0
0
1
0
1 1
1 1
3 3
3 3
4 4
2 2
2 2
1 1
4 4
4 4
• Format DARwin cARA
3
@DARwin 5.0 - ALLELIC - 2
33
20
N° 50
50
122 122 218
218
245
245
261
261
290
290
356
1
1
1
1
1
3
3
3
3
4
4
2
2
2
2
3
4
1
1
1
1
1
1
1
1
1
1
1
1
3
3
3
3
3
3
1
3
3
3
3
3
4
4
4
4
4
4
2
2
2
2
2
2
2
2
2
• Format .inp pour Phase 33
10
P 49 121 217 244 260 289
SSSSSSSSSS
#cARB
A A G G T C C A T T
A A G G T C C A T T
#cSYR
A A G A T C C A T C
A A G G T C C A T T
• Format pour TASSEL (géné5que d’associa5on) 33
10:2
50
122 218
cARB A:A A:A
245
G:G
261
G:G
290
T:T
356
C:C
461
C:C
467
A:A
560
T:T
T:T
cSYR A:A
A:A
G:G
A:G
T:T
C:C
C:C
A:A
T:T
C:T
cARA A:A
A:A
G:G
G:G
T:T
C:C
C:C
A:A
T:T
T:T
cORL A:A
A:A
G:G
G:G
T:T
C:C
C:C
A:A
T:T
T:T
A:G A:G A:G C:T C:C C:C A:A
Formation Bio-informatique Apimet 2014
T:T
C:T
cLAR A:G
Alexis Dereeper
Analyse de
diversité
Librairie SeqLib
Haplotype peu
fréquent
Réseaux
d’haplotypes
Haplotypes fréquents
Distance séparant
les 2 haplotypes
(nb de mutations)
Distribution des groupes
Au sein de cet haplotype
Alexis Dereeper
Formation Bio-informatique Apimet 2014