Genomika

Transcript Genomika

Genomika
Analýzy toku informací v buňce
• Genomové mapování
• Genomové sekvenování
• Anotace genomu
Strukturní
genomika
Jádro
DNA (Genom)
pre-mRNA
Cytoplasma
• DNA arraye a čipy
• (semi) qRT-PCR
• Northern blot + hybrid.
• (transkripční fúze)
mRNA
mRNA (Transkriptom)
Proteiny (Proteom)
Metabolity
(Metabolom)
• 2D elektroforéza
• Gel-free metody
Hmotová spektrometrie
Proteinové sekvenování
• Immunodetekce
• Enzymové aktivity, …
• Chromatografie
• Hmotnostní
spektrometrie
• NMR
Funkční
genomika
Historie sekvenování genomů
• 1977 bakteriofág øX174 (5386bp, 11 genes)
• 1981 mitochondriální genom (16,568bp; 13 prots; 2 rRNAs;
22 tRNAs
• 1986 chloroplastový genom (120,000-200,000bp)
• 1992 Saccharomyces chromosom III (315kb; 182 ORFs)
• 1995 Haemophilus influenzae (1.8Mb
• 1996 Saccharomyces celý genom (12.1Mb; přes 600
výzkumníků, 100 laboratoří)
• 1997 E. coli (4.6Mb; 4200 proteins)
• 1998 Caenorhabditis elegans (97 Mb; 19,000 genů)
• 2000 Arabidopsis thaliana (115Mb, 25-30,000 genů)
• 2001 myš (za 1 rok!)
• 2001 člověk (2 projekty)
• 2005 šimpanz, rýže
• 2006 topol
Zrychlování díky metodickým a technologickým pokrokům.
Sekvenování DNA
(základ sekvenování genomů)
Sangerova metoda
- prodlužování primeru v přítomnosti nízké koncentrace terminátorů (dideoxy)
ddNTP, po jejich začlenění nelze pokračovat v syntéze (chybí OH skupina),
- analýza produktů reakce (zjištění sekvence downstream od primeru)
primer
Polymerace se náhodně ukončuje na všech pozicích, kde se vyskytuje daný NT
Původní uspořádání
- radioaktivně značený primer
- 4 separátní reakce
- s jednotlivými ddNTP
- ddNTP:dNTP (cca 1:20 –100)
- PAGE separace
Automatizovaná sekvenace s
fluorescenčně značenými ddNTP
• Každý ddNTP značen jinou fluorescenční barvou – 1 reakce – vše
dohromady
• Separace dle velikosti v gelu v kapiláře – detekce fluorescence při
průchodu přes čidlo
Nové technologie sekvenování
- rychleji a levněji!!!
- paralelní sekvenování většího množství sekvencí
- sekvenování bez nutnosti práce s jednotlivými sekvencemi!
- záznam sekvence v průběhu reakce (x Sanger – analýza produktu)
Základní principy:
Reakce - syntéza komplementárního vlákna
- ligace značených oligonukleotidů
- degradace exonukleázou
- „skenování“ ssDNA vlákna
Detekce - optická: zabudovaných substrátů (fluor. znač. dNTP,
oligonukleotidů)
produktů (zpřažená luminiscenční reakce)
- elektronická: samotné ssDNA, produktů (dNMP, H+)
Templát - klon identických molekul
- jedna molekula
Pyrosekvenování – 454 sekvenování
příprava knihovny fragmentů
- fragmentace, zatupení,
- připojení adaptorů A a B (jeden s biotinem),
- selekce fragmentů streptavidinovými kuličkami,
- oprava zlomů (nick translation), uvolnění ssDNA
PCR v mikroreaktorech
- kuličky s oligonukleotidy komplementárními k adaptoru
- PCR v emulzi – klonální namnožení templátu
Nanesení na picotitrační destičku
- odstranění nekovalentně vázaných (kompl. vláken)
- přidán primer, DNA polymeráza
a kuličky s enzymy sulfurylázou a luciferázou
Vlastní pyrosekvenování
- cyklické přidávání dATP, dTTP, dCTP, dGTP
- při zabudování světelný signál, integrace signálu  počet nt
- analogicky lze detekovat prosté uvolnění protonů při zabudování nukleotidu
(Ion Torrent semiconductor sequencing)
http://mammoth.psu.edu/rico.d/index.html
Illumina – sequencing by synthesis (Solexa)
Illumina – seqencing by synthesis (Solexa)
Illumina – seqencing by synthesis (Solexa)
Illumina – seqencing by synthesis (Solexa)
SOLiD™ System (Applied Biosystems)
2 Base Encoding Sequencing by Oligonucleotide
Ligation and Detection
- délka čtení max. 75 b
- za den 20-30 Gb!
- přesnost až 99,99 %
- počáteční krok – klonální pomnožení (analogicky 454)
http://appliedbiosystems.cnpg.com/Video/flatFiles/699/index.aspx
SOLiD™ System
Směs 1024 oktamerů (počet variací NNN = 64 x 16 naznačených variací střed. dinukleotidů)
značení: 4 fluorescenční barvy
– každá barva pro 256 oktamerů (vždy 4 známé dinukleotidy na daných pozicích!)
- Z = univerzální nukleotidy párující s kterýmkoli nt, pro zvětšení délky oliga a Ta (po
ligaci jsou odštěpeny!)
Základní princip
- pomnožení úseku s adaptory
DNA ligáza
**
primer
komplementární
značený oktamer
*
určit dle barvy a
*
- známe-li
(součást adaptoru)
můžeme jednoznačně
„kódovací tabulky“
- vazba univerz. primeru
- vazba kompl. oktameru
- ligace oktameru
- detekce signálu
- odštěpení ZZZ s fluorof.
5 samostatných běhů ligací (= ligace začínají 5ti primery
s posunutým koncem) – po10 -15 cyklech = přečtení 50 – 75 b
Znalost prvního nukleotidu dovolí přeložit
sekvenci barev do sekvence nukleotidů
(každý nukleotid je „čtený“ dvakrát – vysoká přesnost sekvenace)
AAT G CA
GGCATG
CCGTAC
}
jiné možnosti překladu (dle 1. nt)
Oxford nanopore technologies – přímá sekvenace
http://www.nanoporetech.com/sequences
jednoho vlákna DNA
- proteinový nanopór v membráně,
(alpha-hemolysin)
- kovalentně připojená exonukleáza
- záznam změn v proudu
(jednotlivé nukleotidy procházející
nanopórem se vážou do vazebného
místa a způsobují specifický pokles
proudu) – možnost odlišení metC a C!
Chip s mikrojamkami
Přímá sekvenace jednoho vlákna DNA
- možnost odlišení modifikovaných bází (změna el. proudu či rychlost reakce)
?
NGS – porovnání základních parametrů
Method
Single-molecule
real-time
sequencing
(Pacific Bio)
Ion
Sequencing by
semiconductor Pyrosequencin
synthesis
(Ion Torrent
g (454)
(Illumina)
sequencing)
Read length
5.000-10.000
(30.000) bp
up to 400 bp
Reads per run
50.000
Cost per 1
million bases (in
US$)
$0.33-$1.00
700 bp
Sequencing by
ligation (SOLiD
sequencing)
Chain
termination
(Sanger
sequencing)
50 to 300 bp
50+50 bp
up to 80 million 1 million
up to 3 billion
1.2 to 1.4 billion N/A
$1
$0.05 to $0.15
$0.13
$10
400 to 900 bp
$2400
http://en.wikipedia.org/wiki/DNA_sequencing
Sekvenování genomu ale není
jen sekvenování DNA
• 1 reakce přečte (75) – (500 – 800 bp)
(SOLID) – (454 + Senger)
• typický genom má stovky milionů až
miliardy bp
Co s tím?
Jak sekvenovat (obecný) genom?
• Klasická strategie (Map-Based Assembly): minimalizace
objemu sekvenování
– třídění klonů DNA fragmentů a postupné čtení
(původní strategie sekvenování genomu člověka)
• Whole genome shotgun (WGS) – náhodné mnohonásobně
redundantní sekvenování
– třídění dat (prvně u Haemophilus)
• Kombinace – „hierarchical shotgun“, „chromosome shotgun“
Hierarchical shotgun sequencing
Whole-genome shotgun sequencing
Production of overlapping clones
(e.g. BACs, YACs)
and construction
of physical map
Shearing of DNA
and sequencing
of subclones
Assembly
Green (2001) Nature Reviews Genetics 2: 573-583
Sekvenační strategie I
Klasická - Map-Based Assembly:
• Detailní kompletní mapa pozic klonů (restrikční +
dle koncových sekvencí genomových fragmentů)
• Časově náročné a drahé
• Ale přímo poskytuje „lešení“ (fyzickou mapu)
pro následné sestavování sekvence
Sekvenační strategie II
Hierarchical shotgun
1) knihovny velkých úseků, jejich zamapování
• BACs (bacterial artificial chromosomes):
100-300 kb
• YACs (yeast artificial chromosomes):
cca 0.5-1Mb
•
u velkých genomů aspoň třídění na chromozómy
2) shotgun sekvenování jednotlivých velkých úseků
Fyzická mapa genomu z „BAC“
klonů
• rozložení jednotlivých BACs na chromozómech,
případně ve vztahu k molekulárním markerům např. STS (sequence
tagged sites = krátké úseky DNA známé sekvence a pozice na
chromozómu)
• základ klasického sekvenování
• VELMI užitečná i k zakotvení „shotgun“ sekvencí
Konstrukce mapy - BAC fingerprinting
současně sekvenovány konce
restrikční analýza
- ke konstrukci mapy nutno 10-20 x více DNA v BACs než je
velikost genomu – Arabidopsis - 20 000, rýže - 70 000)
BAC fingerprinting
ANIMACE HIERARCHICAL SHOTGUN: http://www.weedtowonder.org/sequencing/us_technology/
Výběr minimální dráhy k pokrytí
(MTP, minimum tiling path)
= minimální počet BAC klonů pokrývající celý chromozóm
- uspořádání fyzické mapy dle restrikčních fragmentů
- zamapování a výběr klonů dle koncových sekvencí
a hybridizace (s markery!, s koncovými úseky klonů)
Sekvenační strategie III
Shotgun:
• Rychlé
• Vyžaduje 7-9X více sekvenování pro dostatečný
překryv fragmentů, a tedy kompletní pokrytí
genomu
• Problémy s repetitivní DNA
- nejasný počet tandemových kopií
- ruší sestavování (je-li na více místech genomu)
• Počítačově náročný alignment, kompletní
sestavení velkých genomů s repetitivní DNA
není principielně možné
Propojování kontigů
- nejasná návaznost okolí repetitivních sekvencí
- komplikace, pokud délka čtení (seq. úseku) < délka repetice
a variabilita repetic < chyba sekvenování
repetice
- počet opakování ?
- návaznost ?
Postup skládání genomu (chromosomu, BAC...)
1.
Vyhledání překryvů
jednotlivých sekvenčních běhů
2.
Propojení do „kontigů“
= vzájemně se překrývající sekvence,
ze kterých lze odvodit většinovou
(consensus) sekvenci
3.
Propojení kontigů do
superkontigů (příp. využití info
o párech sekvencí = koncových
úseků a jejich vzdálenosti)
4.
Odvození výsledné genomové
(consensus) sekvence
..ACGATTACAATAGGTT..
Uzavírání mezer
Clone End Tracking
X
na závěrečnou fázi propojování často vhodnější (stačí)
knihovny menších insertů - plasmidové, kosmidové
- opt. knihovny s různě dlouhými (2, 10, a 50 kb) fragmenty
• přiřazení koncových sekvencí ke dvěma kontigům –
určení délky a orientace mezer (osekvenováním
celého klonu dojde k propojení)
Máme sekvenci genomu – a co dál?
Anotace („opoznámkování“ = vytvoření popisků)!
• Vyhledávání genů:
– automatická predikce kódujících oblastí
– predikce sestřihu ab initio
– predikce z příbuzných sekvencí
– ověřování – EST knihovny, cDNA klony
• Predikce funkce – z experimentálně
charakterizovaných homologů
Ukázka anotace úseku BAC clonu
- GenBank formát
Ukázka anotace úseku BAC clonu
- grafické znázornění
Využití genomové informace?
1. hledání homologních genů
2. analýzy (izolace) promotorových
sekvencí
3. analýzy repetitivních sekvencí
4. snadné zamapování inserčních mutací
5. vhodný doplněk EST dat
Alternativní zdroj kódujících sekvencí u velkých genomů
(rychlé a levné)
Expressed Sequence Tags (ESTs)
- krátké sekvenované úseky cDNA (300-600 nt)
- zpravidla úseky genů (primárně z mRNA)
- chybí regulační sekvence (promotory, introny, …)
Příprava EST knihovny
- mRNA
- RT s oligoT primerem – cDNA
- Štěpení heteroduplexu RNázouH
- Syntéza 2. vlákna cDNA
- Štěpení restriktázou
- Ligace adaptorů
klonování
sekvenace
Využití ESTů
• Izolace nových genů (cDNA)
• Potvrzování správnosti anotací genomu
• Molekulární markery pro tvorbu genomových map
• Studium transkriptomu – příprava arrayí, chipů
Sestavování unigenů (z contigů)

Genomika

Transcript Genomika

Directory