Fülogeneesi rekonstrueerimine Õppejõud: Lauri Saag, lauri.saag

Download Report

Transcript Fülogeneesi rekonstrueerimine Õppejõud: Lauri Saag, lauri.saag

Fülogeneesi rekonstrueerimine
Õppejõud: Lauri Saag, [email protected]
Slaidid: Eva-Liis Loogväli, Lauri Saag
04.03.2014
Õpikud:
http://www.blackwellpublishing.com/ridley/
Vabalt kättesaadav fülogeneesi rekonstrueerimise peatükk:
http://www.evolution-textbook.org/content/free/contents/Chapter_27_Web.pdf
Fülogeneetika (phylogenetics) – bioloogia haru, mis uurib
organismi(rühma)de päritolu ja põlvnemiskäiku.
Fülogenees (phylogeny) – organismi(rühma)de päritolu;
fülogeneetiline puu ja selle teke
phylē (kr.k.) – hõim genesis (kr.k.) – sünd
Willi Hennig (1913-1976) Grundzüge einer Theorie der
phylogenetischen Systematik, 1950.
Kladistilised meetodid käsitlevad iga tunnust eraldi ja eeldusel,
et need on sõltumatud ja diskreetsed, näiteks:
• morfoloogilised (purihammaste kuju)
• füsioloogilised (imetamine, munemine)
• molekulaargeneetilised (nukleotiidid DNA järjestuses).
Elu puu
Tree of Life Web:
http://tolweb.org
Fülogeneetilisi suhteid peegeldavad ainult ühiselt eellaselt
päritud ehk homoloogilised tunnusseisundid
Sõltumatult tekkinud sarnased seisundid on analoogilised
tunnusseisundid
Vahetegemiseks tuleb
tunnusseisundeid võrrelda
fülogeneetilise puuga, mis on
konstrueeritud teiste tunnuste
põhjal.
Fülogeneetilisi suhteid peegeldavad ainult ühiselt eellaselt
päritud ehk homoloogilised tunnused. Homoplaasne on
analoogiline tunnus klaadidest rääkides.
homoloogia
homoplaasia
homoplaasne tunnusseisund – kladistilises kontekstis
analoogiline tunnusseisund – igasugune paralleelselt tekkinud
homoloogiline tunnusseisund – igasugune ühiselt eellaselt päritud
Analoogia/homoplaasia põhjused
paralleelne / konvergentne
sekundaarne kaotus ehk
reversioon
Hiire ja krokodilli jäsemed.
Homoloogiate äratundmiseks on mitu võimalust:
• samasugune anatoomiline põhistruktuur
• sarnased ühendused kõrvalasetsevate struktuuridega
• sarnane embrüoloogiline päritolu ja areng
• molekulaarsete andmete puhul tuleb lähtuda
enamuskonsensusest ja statistikast, sest homoplaasiate hulk
on suur ja need on identsed homoloogiatega.
Selgroogsete fülogeneesipuu
rekonstrueerimise näide
tunnused
selgroogsete
taksonid
Fossiilide ja selgroogsete lähedaste sugulaste uurimise
tulemusena rekonstrueerime eellasseisundid:
Säästuprintsiip ehk parsimoonsus selgroogsete fülogeneesipuu
rekonstrueerimise näitel
Säästumeetod järgib Occami
habemenoa ehk säästuprintsiipi muude asjaolude võrdsuse korral
tuleb eelistada lihtsamat hüpoteesi.
• Tegelik puu – reaalselt toimunud fülogeneesi kujutis.
Enamasti pole teada. ÜKS ja ainus
• Tuletatud e. konstrueeritud puu – fülogeneesi mudel,
hüpotees. Konstrueeritakse olemasolevate andmete
põhjal. Võib, kuid ei pruugi olla identne tegeliku puuga.
Tavaliselt saab andmetest tuletada mitu puud.
Erinevad tunnuste põhjal saab teha mitu erinevat puud
•kehakatted
•jalgade arv
•soojasus
•kolju1
•kolju2
•jalgade
asend
lind
krokodill
sisalik kilpkonn
lind
krokodill
sisalik kilpkonn
Jagatud homoloogiad võivad olla vanad või uued tunnusseisundid
sisalik krokodill
lind
aeg
fenotüüp
• Krokodill ja sisalik jagavad ürgseid, plesiomorfseid tunnuseid
• Lindude evolutsioon on olnud kiirem
vanemad ja uuemad tunnuse seisundid
apomorfne
plesiomorfne
sünapomorfne
plesiomorfne ehk vanem
seisund
autapomorfne
homoplaasne
apomorfne ehk uuem seisund
Kuidas loetakse fülogeneetilisi puid.
Puu struktuur
=tipp e Operational
Taxonomic Unit, OTU
välimine haru
=sõlm
=sisemine haru
=juur (MRCA)
hiired
küülikud
kängurud
küülikud
hiired
kängurud
Puud on
pööratavad,
oluline on ainult
lahknemiste
järjekord
Kuidas fülogeneetilisi puid loetakse:
Milline on kõige primitiivsem/arenenum takson?
Milline takson on kõige lähemas suguluses A-ga?
1.
2.
3.
4.
5.
A
B
C
D
kõik võrdselt
Kuidas fülogeneetilisi puid loetakse:
Milline takson on kõige lähemas suguluses C-ga?
1.
2.
3.
4.
5.
A
B
D
B ja D võrdselt
kõik võrdselt
Kuidas fülogeneetilisi puid
loetakse:
A ja B näitavad uuritava liigi
paigutamist puul. C – eelistus
puudub
1.Kas opossum on primitiivsem
liik kui inimene? (A)
2.Kas jääkaru on lähemalt
suguluses leemuri või
inimesega? (A)
Klaad on monofüleetiline klaster
Nt karu ja inimese viimane ühine eellane ning kõik tema
järglased.
Fülogeneetilised klastrid
jagunevad:
• monofüleetiline
• parafüleetiline
• polüfüleetiline
monofüleetiline
parafüleetiline
parafüleetiline
polüfüleetiline
Soojaverelised loomad on polüfüleetiline klaster.
Roomajad on parafüleetiline klaster.
kahepaiksed
kalad
imetajad
linnud
roomajad
amnioodid
tetrapoodid
selgroogsed
Tunnuste polaarsuse määramiseks tuleb puud juurida
Fossiilide ja selgroogsete lähedaste sugulaste uurimise
tulemusena:
juur
juurimata
puu
Saab rekonstrueerida ka
juurimata puu, kuid juur annab
puule ajalise mõõtme ja
tunnuste arengusuunad.
juur
juuritud
puu
4 taksoni juurimata fülogeneetilise puu võimalikud juure
asukohad ja vastavad juuritud puud
Juurimine välisrühma abil
Välisrühma kasutamine eeldab eelteadmisi fülogeneesist - lindude ja
imetajate MRCA on vanem kui imetajate MRCA.
Välisrühma abil juurimine kasutab säästuprintsiipi.
välisrühm
Antud näitest selgub, et
• kiskjad ja sõralised jagavad rohkem ühiseid uusi tunnuseid
• jänestel on lindudega rohkem ühiseid plesiomorfisme kui teistel
imetajatel
Molekulaarses fülogeneetikas kasutatakse DNA
järjestusi (A, T, C, G) või aminohappelisi järjestusi
+
• saab võrrelda väga erinevaid organisme
• informatsiooni suur hulk, mutatsioone on palju
• tunnused on omavahel võrreldavad, on võimalus kasutada
matemaatilisi mudeleid
• homoplaasiate hulk on suur
• molekulaarseid homoplaasiaid saab lahendada enamasti
ainult konsensuse alusel
• võib olla raske määrata, millised sekventsi positsioone
peaks omavahel võrdlema: joondamine
Fülogeneesi rekonstrueerimine eri tasemeil:
 Geeniperekonnad
geeniduplikatsioonid, -deletsioonid
 Haplotüübid
(liigisisene) genealoogia
mitterekombineerunud DNA lõikude põhjal
 Liigid ja kõrgemad taksonid
paljude lookuste põhjal
Molekulaarse fülogeneetika metoodika
(http://evolution-textbook.org -> content -> online chapters):
Homoloogsed geenid:
Ortoloogsed - ühisest
eellasgeenist liigitekke
käigus
Paraloogsed - ühisest
eellasgeenist
duplitseerumise
tulemusena
Ksenoloogsed horisontaalse ülekande
tulemusena
liigiteke
Kui analüüsi satuvad tuvastamata paraloogid:
liikide puu (1(2,3))
geenide puu ((1,2)3)
Vali geen:
näiteks:
ss-rRNA
valk
geenidevaheline
Oluline on, et järjestused varieeruksid piisavalt, et neid eristada, kuid
mitte sel määral, et see segab joondamist.
Joondamine (alignment) – järjestuste paigutamine selliselt, et
kohakuti on homoloogilised nukleotiidipositsioonid või aminohapped
Samade järjestuste kaks võimalikku joondust. Indelitega ja ilma.
Joondus on hüpotees. Samadest järjestustest saab teha erinevaid
joondusi. Positsiooniliselt homoloogilised nukleotiidid võivad olla
identsed konvergentsi tõttu (homoplaasia).
Molekulaarse fülogeneetika metoodika:
arvuta puu
Fülogeneesipuude konstrueerimise meetodite 4 klassi:
•
•
•
•
säästumeetod ehk parsimoonsus
distantsmeetod
suurima tõepära
Bayes`i
Säästumeetod otsib puud, millel on kõige vähem mutatsioone =
on kõige lühem
Säästumeetodil rekonstrueeritud fülogeneesipuul
rekonstrueeritakse ka eellasseisundid
Probleemid: võimalike puude arv, mille seast
otsida, on väga suur
Selle asemel, et võrrelda kõiki
võimalikke puid, kasutatakse puude
otsingu algoritme.
Otsingualgoritmid alustavad etteantud
puust ning teevad sellesse ükshaaval
ümberkorraldusi. Igale uuele puule
leitakse pikkus ning kui see on lühem
eelmisest, siis tehakse ümberkorraldusi
omakorda sellele. Seni kuni lühemat ei
leita.
näiteks pruning and regrafting
Distantsmeetodid
• Distantsmeetodid lähtuvad eeldusest, et need, kelle viimane
ühine eellane elas hiljem, on sarnasemad kui need, kelle oma
elas varem.
• Distantsmeetod kasutab algandmetena distantsmaatrikseid
• Milline on evolutsiooniline kaugus A ja D vahel?
paariviisilised erinevused
joonduselt loetuna
evoluts. kaugused
puu pealt loetuna
Reaalsete andmete puhul ei lange vaadeldavad kaugused ja puu
kaugused kokku (homoplaasiad)
Distantsmeetod otsib puud, mille korral kokkulangevus vaadeldavate
distantside ja puu distantside vahel oleks suurim.
• Võib otsida paljude
puude seast sobivaimat
• või kasutada
algoritmi, mis
konstrueerib distantside
põhjal ühe puu ->
UPGMA kaalumata paaride meetod aritmeetilise keskmisega
on distantsmeetod, mis kasutab klasterdamisalgoritmi
kauguste maatriks
Klasterdamine alustades kõige lühemast kaugusest
Kui evolutsioonikiirus ei ole konstantne, siis konstrueerib UPGMA puu,
mille topoloogia on vale
distantsmaatriks
tegelik evolutsioon
UPGMA puu:
Vale!
Distantsmeetodid
Naabrite ühendamise meetod
Teeb juurimata puu, mis ei eelda molekulaarset kella.
Säästumeetodi ja distantsmeetodi võrdlus
Mutatsiooniline küllastumine ehk sama nukleotiidipositsiooni
mitmekordne muteerumine mõjutab kaugusmaatrikseid
Positsioonide
osakaal DNAs,
mis kahe taksoni
vahel erinevad
(%)
Täieliku
küllastumise
lävend ca. 75%
lahknemisaeg
Distantsmaatriksites kasutatakse enamasti parandatud kaugusi, mis
arvestavad mitmekordse muteerumisega.
Eeldatav asenduste hulk
parandus
vaadeldav
asenduste hulk
lahknemisaeg
mitokondr. rRNA
tuuma rRNA
Geneetiliste kauguste parandamiseks on vaja teada kui sageli üks või
teine nukleotiidi asendus toimub. Eeldusi DNA aluspaaride
muteerumiste tõenäosuste kohta nimetatakse DNA evolutsiooni
mudeliks
Suurima tõepära (ML) meetod on statistiline meetod
S.t. võimaldab hinnata, kui palju on üks puu tõenäolisem kui teine või
kui palju on üks klaad puus tõenäolisem kui teine.
Tõepära – tõenäosus näha antud andmeid eeldusel, et hüpotees kehtib.
Üksikute mutatsioonide tõenäosused leitakse DNA evolutsiooni mudeli
abil ning nende korrutamisel saadakse kogu puu tõepära ühe
nukleotiidipositsiooni järgi. Kõigi positsioonide tõepärad
summeeritakse.
Joseph Felsenstein alates 1970
Hüpoteesiks on fülogeneetiline puu
Mutatsioonide tõenäosused saadakse DNA evolutsiooni mudelist.
Erinevalt säästumeetodist tuleb nüüd võrrelda ka puid, mis erinevad
ainult harupikkuste poolest, s.t. eellasseisundite poolest.
Suurima tõepära meetodi kokkuvõte
Meetod peab lahendama kaks probleemi:
1. Leidma iga puu jaoks tõepära väärtuse
2. Leidma puu (puud), millel on suurim tõepära.
vaja on:
• järjestuste joondust – annab kasutaja
• DNA evolutsiooni mudelit – annab kasutaja
• puid (topoloogiad + harude pikkused) – genereerib
tarkvara ise
Bayes`i meetod püüab hinnata puu tõenäosust
Bayesi meetod on samuti statistiline meetod. Selle asemel, et
arvutada andmete tõenäosusi, püüab Bayesi meetod anda
tõenäosushinnagu hüpoteesile enesele, kasutades selleks mingit
eelteadmist.
Võrdluseks: suurima tõepära hinnang mündile, mida 2 korda
visates tuleb kull on, et seda visates tuleb alati kull. Kuna münt
näib tavaline ja tuleb oma rahakotist, siis eeldaks, et see on 50%.
Bayes`i lähenemine võimaldab võtta arvesse aprioorset
tõenäosust 0,5.
2E-6
Bayes’i meetodi puhul
pole parameetritel punkthinnanguid,
vaid jaotused.
1.75E-6
(Punktihinnang – üks arv)
1.5E-6
Density
1.25E-6
1E-6
7.5E-7
5E-7
2.5E-7
0
-5000000
0
5000000
chrY_270_10GR_h_hgwoA_260_v1.beast4f.log
10
Milleks mudelid ja nende parameetrid veel head on?
Saab hinnata ka muud lisaks kitsalt evolutsioonipuule,
näiteks populatsiooni (efektiivset) suurust
ja selle muutumist ajas.
Bayesian Skyline Plot
Aeg (aastat tagasi)
Markovi ahela Monte Carlo (MCMC)
• Võetakse puu ning tehakse sellele juhuslikke ümberkorraldusi.
• Võrreldakse eelmist ja uut puud tõepärade ja aprioorsete
tõenäosuste suhte alusel.
• Kui uus puu on tõenäolisem, siis valitakse uus puu uute
ümberkorralduste aluseks.
• Kui uus puu on vähem tõenäoline, siis on tema valimise tõenäosus
võrdne tema suhtelise tõenäosusega.
• Kui uut puud ei valita, siis tehakse uued ümberkorraldused
eelmisele puule.
• Peetakse meeles, kui kaua ühe puuga töötati. Moodustub puude
valim. Korrektse Markovi ahela korral on iga puu valimise tõenäosus
võrdne tema aposterioorse tõenäosusega.
Kokkuvõte
• Säästumeetodi puhul otsitakse lühimat ehk vähimate muutustega
puud. Selleks rekonstrueeritakse tunnuste eellasseisundid.
• Distantsmeetodi puhul alustatakse järjestustevaheliste paariviisiliste
erinevuste maatriksist. Selle põhjal konstrueeritakse puu, mis vastab
kaugusmaatriksile parimal viisil.
• Suurima tõepära meetodi puhul otsitakse puud, mille korral oleksid
vaadeldud andmed kõige tõenäolisemad. Selleks omistatakse igale
puule tõepära väärtus, mis põhineb DNA evolutsiooni mudelis toodud
mutatsioonide tõenäosustel.
• Bayes`i meetodi puhul tekitatakse puude valim, mis omistaks igale
puule aposterioorse tõenäosuse. Selleks kasutatakse eelteadmisi
fülogeneesist ja võrreldakse tõepärade suhteid.
Näitamata lisaslaidid
Lisalugu hüpoteeside võrdlemisest
Tõepärade suhte arvutamine mündiviske näitel
kull -1
kiri -2
H1: P(1) = P(2) = 0,5
H2: P(1) = 0,6; P(2) = 0,4
10 korda visatakse: 1222212121
Tõepära(1222212121 | 0,5:0,5) = 0,510 = 0.0009765625
Tõepära(1222212121 | 0,6:0,4) = 0,64 * 0,46 = 0.0005308416
H1 on 1,84 korda tõepärasem kui H2 nende andmete korral
Bayes`i meetod püüab hinnata hüpoteesi tõenäosust
hüpoteesi ja
andmete ühine
tõenäosus
hüpoteesi tõepära ja tõenäosus
andmete tõenäosus (summa üle kõigi hüpoteeside)
Hüpoteeside võrdlemisel taandub andmete tõenäosus välja.