3.4 Genomų sekvenavimas V.Baliuckas Genetikos ir selekcijos skyrius DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.) fermentinis metodas V.Baliuckas Genetikos ir selekcijos skyrius V.Rančelis (2000) DNR.
Download ReportTranscript 3.4 Genomų sekvenavimas V.Baliuckas Genetikos ir selekcijos skyrius DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.) fermentinis metodas V.Baliuckas Genetikos ir selekcijos skyrius V.Rančelis (2000) DNR.
Slide 1
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 2
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 3
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 4
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 5
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 6
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 7
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 8
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 9
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 10
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 11
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 12
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 13
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 14
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 15
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 16
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 17
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 18
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 19
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 20
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 21
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 22
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 23
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 24
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 25
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 26
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 27
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 28
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 29
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 30
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 31
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 32
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 33
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 34
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 35
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 36
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 2
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 3
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 4
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 5
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 6
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 7
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 8
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 9
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 10
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 11
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 12
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 13
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 14
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 15
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 16
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 17
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 18
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 19
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 20
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 21
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 22
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 23
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 24
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 25
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 26
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 27
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 28
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 29
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 30
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 31
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 32
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 33
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 34
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 35
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius
Slide 36
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.)
fermentinis metodas
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto
cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
automatinis metodas – tai automatizuotas F.
Sengerio išrastas metodas
Visi dabartiniu metu naudojami
genomų sekvenavimo būdai remiasi
‘Shotgun’ automatiniu DNR sekų
generavimu
Chromatografo kreivės
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai
iššifruotą DNR grandinėlę (A, C, G, T).
Strategija
Klonų gretinimo (hierarchiniu) būdu arba viso genomo
sekvenavimas per kartą
Bibliotekos
Subklonavimas; ant gerai žinomų vektorių sudaromos
nedidelės “įterpimo” bibliotekos
Sekvenavimas
Grupavimas/
susiejimas
Užbaigimas
Anotacija
Perdavimas
naudojimui
V.Baliuckas
Genetikos ir selekcijos skyrius
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)
-Genų lokalizacija
-Peptidų savybės
-Pirminis peptidų vaidmens ar paskirties nustatymas
-Kitos reguliatorinės sritys
Pagrindinės genomo sekvenavimo strategijos
Hierarchinė arba klonų gretinimo (angl. Clone by clone):
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės
kolekcija BAC klonų sudarymas.
2. DNR fragmentų sudėliojimas į fizinius genolapius.
3. Minimalaus fragmentų persidengimo varianto suradimas.
4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.
5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).
6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai
nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų
kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed
clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.
Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
0
1
2
3
4
H.sapiens (3000 Mb)
D.melanogaster (170 Mb)
C.elegans (100Mb)
P.falciparum (30 Mb)
S.cerevisiae (14 Mb)
E.coli (4 Mb)
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Visos chromosomos (WCS)
Viso genomo per kartą ‘Shotgun’
(WGS) derinant su BAC mažo
padengimo klonais (panaudotas
žiurkės genomo sekvenavimui)
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai
atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
Vektorių tipai
Vektorius
Intarpo dydis
(bp)
Plazmidės
2,000-10,000
Kosmidės
40,000
BAC (bakterijų dirbtinė
chromosoma)
70,000300,000
YAC (mielių dirbtinė
chromosoma)
> 300,000
(vis mažiau
naudojama)
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
DNR
DNR fragmentai
Vektorius (žiedinė
plazmidės DNR)
V.Baliuckas
Genetikos ir selekcijos skyrius
+
=
Žinoma vieta
(restriktazių
pažinimo
vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais
atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:
-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių
raukšlėtumas;
-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi
būdu gaunamas tikslus
molekulinių žymenų išsidėstymas
chromosomoje
Detalus genolapio STS (angl. sequencetagged-site) pagrindu sudarymas
remiasi klonuotų BAC fragmentų
kartografavimu, persidengimo principu
(angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo
sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Viso genomo sekvenavimas per kartą
Privalumai:
- Lengvesnis apjungimas sekvenuotų
fragmentų į klonų gretinius
- Reikalauja mažiau kompiuterinių
resursų
- Yra patikimesnis
Privalumai:
- Nereikia genolapių
- Mažiau perteklinio padengimo
- Reikalauja daugiau kompiuterinių
resursų
- Yra pigesnis
Trūkumai:
- Reikalingi fiziniai genolapiai ir klonų
bibliotekos
- Daug perteklinio padengimo (angl.
redundant sequencing)
- Techniškai sudėtingas ir pakankamai
brangus
Trūkumai:
- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y.
eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių
resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
ab initio genų
suradimas
Genominė DNR
transkripcija
Pirminė RNR
RNR procesingas
Brandi mRNR
AAAAAAA
Gm3
transliacija
Susidarantis polipeptidas
Lyginamasis
genų išaiškinimas
susisukimas
Aktyvus enzimas
Funkcinė
identifikacija
Funkcija
Reaktantas A
Produktas B
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas,
siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus
jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais
genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o
taip pat transkripciją reguliuojančių elementų identifikavimu.
1000
2000
3000
4000
5000
6000
7000
3
3
2
2
1
1
-1
-1
-2
-2
-3
-3
1000
2000
3000
Funkcinė anotacija susijusi su
baltymų molekuline funkcija, jų
dalyvavimu apykaitos ir
reguliatorinėje veikloje.
E.coli genomo
vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
4000
5000
6000
7000
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop
kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga
introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų
trejetas esti atsitiktinis stop kodonas.
Egzonas 1
5’
Start kodonas
ATG
Intronas 1
Egzonas 2
Intronas 2
Susijungimo vietos
Egzonas 3
3’
Stop kodonas
TAG/TGA/TAA
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo
rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos
tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais
(naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su
žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų
genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės
programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios
salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie
koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės
programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų
sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis
pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM
kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja
grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose.
Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų
išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan
yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų
lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku
aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos
sklandumą
Gerai
Vidutiniškai
Blogai
Polimorfizmas
Haploidai
Savidulkiniai
Kryžmadulkiniai
Padengimas
žymenimis
Tankus
Retas
Nėra
Fragmentų dydis
3kb, 10kb,
50kb, 200kb
3kb, 50kb
3kb
Klonų
pasiskirstymas
Atsitiktinis
Atsitiktinis kai kurių
dydžių fragmentuose
Neatsitiktinis
daugumoje atvejų
BAC galai
Daug porose
Nedaug porose
Nėra porose
EST
Daug 300/Mb
Mažai 100/Mb
Nėra
mRNA
Daug
Mažai
Nėra
Padengimas
10x
6x
2x
Sekvenavimo
paklaidos
Nėra
Nedaug
Daug
Genomo dydis
30Mb - 100Mb 100Mb - 1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius
>1Gb
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)
Daugybinis spektrometrinis sekvenavimas
Tiesioginė atskiros DNR molekulės vizualizacija naudojant atominę mikroskopiją
(AFM)
Atskiros molekulės sekvenavimas
Atskiro nukleotido metodas
Geno ekspresijos ląstelėje nustatymo metodas
Sekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
www.ist.temple.edu/~vucetic/ cis595spring2003/
Žmogaus genomas
1
2
3
4
5
6
7
8
9
10
11
12
16
13 14
15
104
279
221
251
17
18 19 20
72
88
66
X
21
22
197 198
Y
.016
45 48
51
86
118 107 100
148
143
142
176 163 148 140
mitochondrija
3.2*109 bp
163
Myoglobinas
a globinas
b-globinas
*5.000
(11 chromosoma)
6*104 bp
Egzonas 1 Egzonas 2
*20
Egzonas 3
5’ UTR
3’ UTR
3*103 bp
*103
DNR:
ATTGCCATGTCGATAATTGGACTATTTGGA
Baltymas:
V.Baliuckas
aa
aa
aa
Genetikos ir selekcijos skyrius
aa
aa
aa
aa
aa
aa
aa
30 bp
http://www.sanger.ac.uk/HGP/
Žmogaus genomas
-
-
Genai sudaro ~ 25% viso
genomo
Egzonai užima tik 1%
Vidutinis žmogaus genas:
27kb ilgio ir koduojančia seka sudarančia 1,340 bp
Tik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)
V.Baliuckas
Genetikos ir selekcijos skyrius
www.gmu.edu/departments/ biology/568-0304.ppt
•
Egzonai:
baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)
8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
•
Intronai:
nekoduojančios DNR sekos
vidutiniškai 1 kb – 50 kb sudaro introną
•
Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai”
genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Steane (2005)
Augalų genomai skiriasi dydžiu,
ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
Bananas (Musa)
873.000 Kb
Lilium
50.000.000 Kb
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius
Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląstelių tipų ir morfologinis kompleksiškumas
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomus
Organizmas
Dydis, bazinės poros Apytikslis genų
skaičius
Chromosomų
skaičius
Homo sapiens
(žmogus)
3,164 mln. bp
~30,000
46
Rattus norvegicus
(žiurkė)
2,750 mln. bp
~30,000
42
Mus musculus
(pelė)
2500 mln. bp
~30,000
40
Oryza sativa L.
(ryžis)
450 mln. bp
~40,000
12
Drosophila melanogaster
(vaisinė muselė)
180 mln. bp
13,600
8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp
25,500
5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp
19,100
6
Saccharomyces cerevisiae
(mielės)
12 mln. bp
6300
16
Escherichia coli
(bakterija)
4.7 mln. bp
3200
1
V.Baliuckas
Genetikos ir selekcijos skyrius
Požymis
Pinus spp
Eucalyptus
spp
Arabidopsis
Dydis, pg (haploidinės
ląstelės)
24
0,6
0,15
Chromosomų skaičius
12
11
5
Kartotinė DNR (%)
75
75
10
Nesikartojanti DNR (%) 25
25
90
Koduojanti DNR (%)
13,3
50
0,3
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio
vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o
branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios
šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia
trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik
mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai
šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas
ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18
Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis
sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
V.Baliuckas
Genetikos ir selekcijos skyrius
Eriksson and Ekberg (2001)
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and
linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM.,
Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus
taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends in
Plant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,
Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt
R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation,
analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 119.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome from
the Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.
V.Baliuckas
Genetikos ir selekcijos skyrius