Transcript Genomika
Genomika Analýzy toku informací v buňce • Genomové mapování • Genomové sekvenování • Anotace genomu Strukturní genomika Jádro DNA (Genom) pre-mRNA Cytoplasma • DNA arraye a čipy • (semi) qRT-PCR • Northern blot + hybrid. • (transkripční fúze) mRNA mRNA (Transkriptom) Proteiny (Proteom) Metabolity (Metabolom) • 2D elektroforéza • Gel-free metody Hmotová spektrometrie Proteinové sekvenování • Immunodetekce • Enzymové aktivity, … • Chromatografie • Hmotnostní spektrometrie • NMR Funkční genomika Historie sekvenování genomů • 1977 bakteriofág øX174 (5386bp, 11 genes) • 1981 mitochondriální genom (16,568bp; 13 prots; 2 rRNAs; 22 tRNAs • 1986 chloroplastový genom (120,000-200,000bp) • 1992 Saccharomyces chromosom III (315kb; 182 ORFs) • 1995 Haemophilus influenzae (1.8Mb • 1996 Saccharomyces celý genom (12.1Mb; přes 600 výzkumníků, 100 laboratoří) • 1997 E. coli (4.6Mb; 4200 proteins) • 1998 Caenorhabditis elegans (97 Mb; 19,000 genů) • 2000 Arabidopsis thaliana (115Mb, 25-30,000 genů) • 2001 myš (za 1 rok!) • 2001 člověk (2 projekty) • 2005 šimpanz, rýže • 2006 topol Zrychlování díky metodickým a technologickým pokrokům. Sekvenování DNA (základ sekvenování genomů) Sangerova metoda - prodlužování primeru v přítomnosti nízké koncentrace terminátorů (dideoxy) ddNTP, po jejich začlenění nelze pokračovat v syntéze (chybí OH skupina), - analýza produktů reakce (zjištění sekvence downstream od primeru) primer Polymerace se náhodně ukončuje na všech pozicích, kde se vyskytuje daný NT Původní uspořádání - radioaktivně značený primer - 4 separátní reakce - s jednotlivými ddNTP - ddNTP:dNTP (cca 1:20 –100) - PAGE separace Automatizovaná sekvenace s fluorescenčně značenými ddNTP • Každý ddNTP značen jinou fluorescenční barvou – 1 reakce – vše dohromady • Separace dle velikosti v gelu v kapiláře – detekce fluorescence při průchodu přes čidlo Nové technologie sekvenování - rychleji a levněji!!! - paralelní sekvenování většího množství sekvencí - sekvenování bez nutnosti práce s jednotlivými sekvencemi! - záznam sekvence v průběhu reakce (x Sanger – analýza produktu) Základní principy: Reakce - syntéza komplementárního vlákna - ligace značených oligonukleotidů - degradace exonukleázou - „skenování“ ssDNA vlákna Detekce - optická: zabudovaných substrátů (fluor. znač. dNTP, oligonukleotidů) produktů (zpřažená luminiscenční reakce) - elektronická: samotné ssDNA, produktů (dNMP, H+) Templát - klon identických molekul - jedna molekula Pyrosekvenování – 454 sekvenování příprava knihovny fragmentů - fragmentace, zatupení, - připojení adaptorů A a B (jeden s biotinem), - selekce fragmentů streptavidinovými kuličkami, - oprava zlomů (nick translation), uvolnění ssDNA PCR v mikroreaktorech - kuličky s oligonukleotidy komplementárními k adaptoru - PCR v emulzi – klonální namnožení templátu Nanesení na picotitrační destičku - odstranění nekovalentně vázaných (kompl. vláken) - přidán primer, DNA polymeráza a kuličky s enzymy sulfurylázou a luciferázou Vlastní pyrosekvenování - cyklické přidávání dATP, dTTP, dCTP, dGTP - při zabudování světelný signál, integrace signálu počet nt - analogicky lze detekovat prosté uvolnění protonů při zabudování nukleotidu (Ion Torrent semiconductor sequencing) http://mammoth.psu.edu/rico.d/index.html Illumina – sequencing by synthesis (Solexa) Illumina – seqencing by synthesis (Solexa) Illumina – seqencing by synthesis (Solexa) Illumina – seqencing by synthesis (Solexa) SOLiD™ System (Applied Biosystems) 2 Base Encoding Sequencing by Oligonucleotide Ligation and Detection - délka čtení max. 75 b - za den 20-30 Gb! - přesnost až 99,99 % - počáteční krok – klonální pomnožení (analogicky 454) http://appliedbiosystems.cnpg.com/Video/flatFiles/699/index.aspx SOLiD™ System Směs 1024 oktamerů (počet variací NNN = 64 x 16 naznačených variací střed. dinukleotidů) značení: 4 fluorescenční barvy – každá barva pro 256 oktamerů (vždy 4 známé dinukleotidy na daných pozicích!) - Z = univerzální nukleotidy párující s kterýmkoli nt, pro zvětšení délky oliga a Ta (po ligaci jsou odštěpeny!) Základní princip - pomnožení úseku s adaptory DNA ligáza ** primer komplementární značený oktamer * určit dle barvy a * - známe-li (součást adaptoru) můžeme jednoznačně „kódovací tabulky“ - vazba univerz. primeru - vazba kompl. oktameru - ligace oktameru - detekce signálu - odštěpení ZZZ s fluorof. 5 samostatných běhů ligací (= ligace začínají 5ti primery s posunutým koncem) – po10 -15 cyklech = přečtení 50 – 75 b Znalost prvního nukleotidu dovolí přeložit sekvenci barev do sekvence nukleotidů (každý nukleotid je „čtený“ dvakrát – vysoká přesnost sekvenace) AAT G CA GGCATG CCGTAC } jiné možnosti překladu (dle 1. nt) Oxford nanopore technologies – přímá sekvenace http://www.nanoporetech.com/sequences jednoho vlákna DNA - proteinový nanopór v membráně, (alpha-hemolysin) - kovalentně připojená exonukleáza - záznam změn v proudu (jednotlivé nukleotidy procházející nanopórem se vážou do vazebného místa a způsobují specifický pokles proudu) – možnost odlišení metC a C! Chip s mikrojamkami Přímá sekvenace jednoho vlákna DNA - možnost odlišení modifikovaných bází (změna el. proudu či rychlost reakce) ? NGS – porovnání základních parametrů Method Single-molecule real-time sequencing (Pacific Bio) Ion Sequencing by semiconductor Pyrosequencin synthesis (Ion Torrent g (454) (Illumina) sequencing) Read length 5.000-10.000 (30.000) bp up to 400 bp Reads per run 50.000 Cost per 1 million bases (in US$) $0.33-$1.00 700 bp Sequencing by ligation (SOLiD sequencing) Chain termination (Sanger sequencing) 50 to 300 bp 50+50 bp up to 80 million 1 million up to 3 billion 1.2 to 1.4 billion N/A $1 $0.05 to $0.15 $0.13 $10 400 to 900 bp $2400 http://en.wikipedia.org/wiki/DNA_sequencing Sekvenování genomu ale není jen sekvenování DNA • 1 reakce přečte (75) – (500 – 800 bp) (SOLID) – (454 + Senger) • typický genom má stovky milionů až miliardy bp Co s tím? Jak sekvenovat (obecný) genom? • Klasická strategie (Map-Based Assembly): minimalizace objemu sekvenování – třídění klonů DNA fragmentů a postupné čtení (původní strategie sekvenování genomu člověka) • Whole genome shotgun (WGS) – náhodné mnohonásobně redundantní sekvenování – třídění dat (prvně u Haemophilus) • Kombinace – „hierarchical shotgun“, „chromosome shotgun“ Hierarchical shotgun sequencing Whole-genome shotgun sequencing Production of overlapping clones (e.g. BACs, YACs) and construction of physical map Shearing of DNA and sequencing of subclones Assembly Green (2001) Nature Reviews Genetics 2: 573-583 Sekvenační strategie I Klasická - Map-Based Assembly: • Detailní kompletní mapa pozic klonů (restrikční + dle koncových sekvencí genomových fragmentů) • Časově náročné a drahé • Ale přímo poskytuje „lešení“ (fyzickou mapu) pro následné sestavování sekvence Sekvenační strategie II Hierarchical shotgun 1) knihovny velkých úseků, jejich zamapování • BACs (bacterial artificial chromosomes): 100-300 kb • YACs (yeast artificial chromosomes): cca 0.5-1Mb • u velkých genomů aspoň třídění na chromozómy 2) shotgun sekvenování jednotlivých velkých úseků Fyzická mapa genomu z „BAC“ klonů • rozložení jednotlivých BACs na chromozómech, případně ve vztahu k molekulárním markerům např. STS (sequence tagged sites = krátké úseky DNA známé sekvence a pozice na chromozómu) • základ klasického sekvenování • VELMI užitečná i k zakotvení „shotgun“ sekvencí Konstrukce mapy - BAC fingerprinting současně sekvenovány konce restrikční analýza - ke konstrukci mapy nutno 10-20 x více DNA v BACs než je velikost genomu – Arabidopsis - 20 000, rýže - 70 000) BAC fingerprinting ANIMACE HIERARCHICAL SHOTGUN: http://www.weedtowonder.org/sequencing/us_technology/ Výběr minimální dráhy k pokrytí (MTP, minimum tiling path) = minimální počet BAC klonů pokrývající celý chromozóm - uspořádání fyzické mapy dle restrikčních fragmentů - zamapování a výběr klonů dle koncových sekvencí a hybridizace (s markery!, s koncovými úseky klonů) Sekvenační strategie III Shotgun: • Rychlé • Vyžaduje 7-9X více sekvenování pro dostatečný překryv fragmentů, a tedy kompletní pokrytí genomu • Problémy s repetitivní DNA - nejasný počet tandemových kopií - ruší sestavování (je-li na více místech genomu) • Počítačově náročný alignment, kompletní sestavení velkých genomů s repetitivní DNA není principielně možné Propojování kontigů - nejasná návaznost okolí repetitivních sekvencí - komplikace, pokud délka čtení (seq. úseku) < délka repetice a variabilita repetic < chyba sekvenování repetice - počet opakování ? - návaznost ? Postup skládání genomu (chromosomu, BAC...) 1. Vyhledání překryvů jednotlivých sekvenčních běhů 2. Propojení do „kontigů“ = vzájemně se překrývající sekvence, ze kterých lze odvodit většinovou (consensus) sekvenci 3. Propojení kontigů do superkontigů (příp. využití info o párech sekvencí = koncových úseků a jejich vzdálenosti) 4. Odvození výsledné genomové (consensus) sekvence ..ACGATTACAATAGGTT.. Uzavírání mezer Clone End Tracking X na závěrečnou fázi propojování často vhodnější (stačí) knihovny menších insertů - plasmidové, kosmidové - opt. knihovny s různě dlouhými (2, 10, a 50 kb) fragmenty • přiřazení koncových sekvencí ke dvěma kontigům – určení délky a orientace mezer (osekvenováním celého klonu dojde k propojení) Máme sekvenci genomu – a co dál? Anotace („opoznámkování“ = vytvoření popisků)! • Vyhledávání genů: – automatická predikce kódujících oblastí – predikce sestřihu ab initio – predikce z příbuzných sekvencí – ověřování – EST knihovny, cDNA klony • Predikce funkce – z experimentálně charakterizovaných homologů Ukázka anotace úseku BAC clonu - GenBank formát Ukázka anotace úseku BAC clonu - grafické znázornění Využití genomové informace? 1. hledání homologních genů 2. analýzy (izolace) promotorových sekvencí 3. analýzy repetitivních sekvencí 4. snadné zamapování inserčních mutací 5. vhodný doplněk EST dat Alternativní zdroj kódujících sekvencí u velkých genomů (rychlé a levné) Expressed Sequence Tags (ESTs) - krátké sekvenované úseky cDNA (300-600 nt) - zpravidla úseky genů (primárně z mRNA) - chybí regulační sekvence (promotory, introny, …) Příprava EST knihovny - mRNA - RT s oligoT primerem – cDNA - Štěpení heteroduplexu RNázouH - Syntéza 2. vlákna cDNA - Štěpení restriktázou - Ligace adaptorů klonování sekvenace Využití ESTů • Izolace nových genů (cDNA) • Potvrzování správnosti anotací genomu • Molekulární markery pro tvorbu genomových map • Studium transkriptomu – příprava arrayí, chipů Sestavování unigenů (z contigů)