Transcript UPGMA puu

Fülogeneesi rekonstrueerimine
Eva-Liis Loogväli
09.03.2012
Fülogeneetika (phylogenetics) – bioloogia haru, mis
uurib organismi(rühma)de päritolu ja põlvnemiskäiku.
Fülogenees (phylogeny) – organismi(rühma)de
päritolu; fülogeneetiline puu ja selle teke
phylē (kr.k.) – hõim genesis (kr.k.) – sünd
Willi Hennig (1913-1976) Grundzüge einer Theorie
der phylogenetischen Systematik, 1950.
Fülogeneetika (kladistika) on selline bioloogiline
süstemaatika, mis klassifitseerib organisme nende
ühise päritolu põhjal.
Fülogeneetika erineb teistest taksonoomilistest
süsteemidest (nt feneetikast) selle poolest, et rõhk on
ühiselt esivanemalt päritud uutel tunnustel.
Feneetika klassifitseerib üldise sarnasuse alusel,
eesmärgiks pole fülogeneesi rekonstrueerimine, kuigi
feneetilisi meetodeid saab selleks kasutada.
Elu puu
Tree of Life Web:
http://tolweb.org
from: Carl Zimmer. Evolution (William Heinemann,
• Tegelik puu – reaalselt toimunud fülogeneesi
kujutis. Enamasti pole teada. ÜKS ja ainus
• Tuletatud e. konstrueeritud puu – fülogeneesi
mudel, hüpotees. Konstrueeritakse olemasolevate
andmete põhjal. Võib, kuid ei pruugi olla identne
tegeliku puuga. Tavaliselt saab andmetest tuletada
mitu puud.
Puu
=tipp e Operational
Taxonomic Unit, OTU
välimine haru
=sõlm
=sisemine haru
=juur (MRCA)
Puu on matemaatiline struktuur, mida kasutame
fülogeneesi mudelina.
hiired
küülikud
kängurud
küülikud
hiired
kängurud
Puud on
pööratavad,
oluline on
ainult
lahknemiste
järjekord
evolutsiooniline
puu ehk
fülogeneetiline puu
ehk kladogramm
ehk dendrogramm
Klaad on monofüleetiline klaster
Nt karu ja inimese viimane ühine eellane ning kõik
tema järglased.
Fülogeneetilised
klastrid jagunevad:
• monofüleetiline
• parafüleetiline
• polüfüleetiline
monofüleetiline
parafüleetiline
parafüleetiline
polüfüleetiline
kahepaiksed
kalad
imetajad
linnud
roomajad
amnioodid
tetrapoodid
selgroogsed
Kladistilised meetodid käsitlevad iga tunnust
eraldi ja eeldusel, et need on sõltumatud ja
diskreetsed, näiteks:
• morfoloogilised (purihammaste kuju)
• füsioloogilised (imetamine, munemine)
• molekulaargeneetilised (nukleotiidid DNA
järjestuses).
Tunnuse seisund on homoloogne, kui see on päritud ühiselt
eellaselt ja homoplaasne, kui on tekkinud sõltumatult.
homoloogia
homoplaasia
Fülogeneetilisi suhteid peegeldavad ainult ühiselt
eellaselt päritud tunnused ehk homoloogsed
tunnused.
•kehakatted
lind
krokodill
sisalik kilpkonn
lind
krokodill
sisalik kilpkonn
•jalgade arv
•soojasus
•kolju
•jalgade
asend
sisalik krokodill
lind
aeg
fenotüüp
• Krokodill ja sisalik jagavad ürgseid, plesiomorfseid
tunnuseid
• Lindude evolutsioon on olnud kiirem
vanemad ja uuemad tunnuse seisundid
apomorfne
plesiomorfne
sünapomorfne
homoloogne
vanem seisund (ancestral state)
autapomorfne
homoplaasne
uuem seisund (derived state)
Homoloogiate äratundmiseks on mitu võimalust:
• samasugune anatoomiline põhistruktuur
• sarnased ühendused kõrvalasetsevate
struktuuridega
• sarnane embrüoloogiline päritolu ja areng
• molekulaarsete andmete puhul tuleb lähtuda
enamuskonsensusest ja statistikast.
Homoplaasia põhjused
paralleelne / konvergentne
sekundaarne kaotus ehk
reversioon
Lindude, pterosauruste ja
nahkhiirte tiivad on homoloogsed
kui esijäsemed, aga homoplaassed
kui lennuvahendid!
Lind
1
2
3
8
1
2
3
8
9 6
7
4
5 10
4
5 10
Nahkhiir
9 6
7
Tunnuste polaarsuse määramiseks tuleb puud juurida
juur
juurimata puu
Juur annab puule
ajalise mõõtme
juuritud puu
juur
Puude juurimiseks ja tunnuste polaarsuse
määramiseks sobivad fossiilsed andmed, juhul kui
neid on rikkalikult.
Näiteks imetajasarnaste roomajate fossiilseid leiud
evolutsioon
suht.täielik
fossiilide seeria
suht.ebatäielik
fossiilide seeria
Enamasti on fossiilide seeriad (väga) ebatäielikud ja
tekitavad tunnuste polaarsuse määramisel segadust.
Juurimine välisrühma abil
Välisrühma kasutamine eeldab eelteadmisi fülogeneesist lindude ja imetajate MRCA on vanem kui imetajate
MRCA.
Välisrühma abil juurimine kasutab parsimoonsuse ehk
säästuprintsiipi
välisrühm
Antud näitest selgub, et jänestel on lindudega rohkem
ühiseid plesiomorfisme kui teistel imetajatel.
Molekulaarses fülogeneetikas kasutatakse DNA
järjestusi (A, T, C, G) või aminohappelisi järjestusi
+
• saab võrrelda väga erinevaid organisme
• informatsiooni suur hulk, mutatsioone on palju
• tunnused on omavahel võrreldavad, on võimalus
kasutada matemaatilisi mudeleid
• homoplaasiate hulk on suur
• molekulaarseid homoplaasiaid saab lahendada
enamasti ainult konsensuse alusel
Fülogeneesi rekonstrueerimine eri tasemeil:
• Geeniperekonnad
geeniduplikatsioonid, -deletsioonid
• Haplotüübid
(liigisisene) genealoogia
mitterekombineerunud DNA lõikude põhjal
• Liigid ja kõrgemad taksonid
paljude lookuste põhjal, fülogenoomika
Molekulaarse fülogeneetika metoodika
(http://evolution-textbook.org -> content -> online chapters):
Vali geen:
näiteks:
ss-rRNA
valk
geenidevaheline
Oluline on, et järjestused varieeruksid piisavalt, et neid
eristada, kuid mitte sel määral, et see segab joondamist.
Joondamine (alignment) – järjestuste paigutamine selliselt,
et kohakuti on homoloogilised nukleotiidid või
aminohapped
Samade järjestuste kaks võimalikku joondust. Indelitega
ja ilma. Joondus on hüpotees. Samadest järjestustest
saab teha erinevaid joondusi. Positsiooniliselt
homoloogilised nukleotiidid võivad olla identsed
konvergentsi tõttu (homoplaasia).
Homoloogsed geenid:
Ortoloogsed ühisest eellasgeenist
liigitekke käigus
Paraloogsed - ühisest
eellasgeenist
duplitseerumise
tulemusena
Ksenoloogsed horisontaalse ülekande
tulemusena
liigiteke
Kui analüüsi satuvad tuvastamata paraloogid:
Liigipuid
rekonstrueerib
fülogenoomika
– paljude
geenide
samaaegne
analüüs
liikide puu (1(2,3))
geenide puu ((1,2)3)
Molekulaarse fülogeneetika metoodika:
arvuta puu
Fülogeneesipuude konstrueerimise
meetodite klassid:
• säästumeetod ehk parsimoonsus
• distantsmeetod
• suurima tõepära ja Bayes`i meetodid
Säästumeetod järgib Occami habemenoa ehk
säästuprintsiipi - muude asjaolude võrdsuse korral
tuleb eelistada lihtsamat hüpoteesi. Otsitakse puud, mis
on kõige lühem.
Säästumeetodil rekonstrueeritud fülogeneesipuul
rekonstrueeritakse ka eellasseisundid
Probleemid: võimalike puude arv, mille seast
otsida, on väga suur
Puude otsingu meetodeid on
palju. Neid kasutatakse koos
säästu-, distants- ja tõepära
meetoditega.
Otsingualgoritmid alustavad
etteantud puust ning teevad
sellesse ükshaaval
ümberkorraldusi. Igale uuele
puule leitakse pikkus ning kui see
on lühem eelmisest, siis tehakse
ümberkorraldusi omakorda
sellele. Seni kuni lühemat ei leita.
näiteks pruning and regrafting
“mägironimise” algoritm
Tulemus võib sõltuda sellest, millisest alampuust alustada
Distantsmeetodid
Distantsmeetodid lähtuvad eeldusest, et need kelle
viimane ühine eellane elas hiljem, on sarnasemad kui
need, kelle oma elas varem.
(Distantsmeetodid on oma lähenemiselt feneetilised)
Distantsmeetod kasutab algandmetena
distantsmaatrikseid
Milline on evolutsiooniline kaugus A ja D vahel?
paariviisilised kaugused
joonduselt
evoluts. kaugused
puu pealt
Reaalsete andmete puhul ei lange vaadeldavad
kaugused ja puu kaugused kokku (homoplaasiad)
Distantsmeetod otsib puud, mille korral kokkulangevus
vaadeldavate distantside ja puu distantside vahel oleks
suurim.
• Võib otsida paljude puude
seast sobivaimat
• või kasutada algoritmi, mis
konstrueerib distantside põhjal
ühe puu ->
UPGMA kaalumata paaride meetod aritmeetilise keskmisega
on distantsmeetod, mis kasutab klasterdamisalgoritmi
Eeldus: evolutsiooni kiirus on konstantne
UPGMA
Kui evolutsioonikiirus ei ole konstantne, siis konstrueerib
UPGMA puu, mille topoloogia on vale
distantsmaatriks
tegelik evolutsioon
UPGMA puu:
Vale!
Naabrite ühendamise meetod
kasutab klasterdamisalgoritmi puu topoloogia ja
harupikkuste leidmiseks distantsmaatriksi alusel nii, et
puu pikkus oleks lühim
naabrite ühendamise meetod
Mutatsiooniline küllastumine
DNA
erinevuse määr
(%)
lahknemisaeg
Evolutsiooniline kaugus on muutuste hulk
Distantsmaatriksites kasutatakse enamasti parandatud
kaugusi, mis arvestavad mitmekordse muteerumisega.
Eeldatav asenduste hulk
parandus
vaadeldav
asenduste hulk
lahknemisaeg
mitokondr. rRNA
tuuma rRNA
Kauguste parandamine Jukes-Cantori meetodil
D – parandatud kaugus
λ – vaadeldud kaugus (erinevuste osakaal)
Jukes-Cantori DNA evolutsiooni mudeli eeldused
• kõik nukleotiidid võivad muutuda kõigiks
nukleotiidideks sama suure tõenäosusega
• järjestused sisaldavad igat nukleotiidi 25%
Eeldusi DNA aluspaaride muteerumiste tõenäosuste kohta
nimetatakse DNA evolutsiooni mudeliks
• geneetiliste kauguste
parandamiseks
• järjestuste joondustele
skooride andmiseks
• säästumeetodil saadud
puule skooride andmiseks
• suurima tõepära meetodi
rakendamisel puudele
skooride andmiseks
Suurima tõepära ja Bayes`i meetodid on statistilisemad.
Võimaldavad hinnata, kui palju on üks puu tõenäolisem
kui teine.
Tõepära – tõenäosus näha antud andmeid eeldusel, et
hüpotees kehtib
Bayes`i teoreemi järgi saab leida hüpoteesi tõenäosuse
eeldusel, et teame hüpoteesi aprioorset tõenäosust ja
näeme antud andmeid
Joseph Felsenstein alates 1970d
Tõepärade suhte arvutamine mündiviske näitel
kull -1
kiri -2
H1: P(1) = P(2) = 0,5
H2: P(1) = 0,6; P(2) = 0,4
10 korda visatakse: 1222212121
Tõepära(1222212121 | 0,5:0,5) = 0,510 = 0.0009765625
Tõepära(1222212121 | 0,6:0,4) = 0,64 * 0,46 = 0.0005308416
H1 on 1,84 korda tõepärasem kui H2 nende andmete korral
Suurima tõepära meetod
Meetod peab lahendama kaks probleemi:
1. Leidma iga puu jaoks tõepära väärtuse
2. Leidma puu (puud), millel on suurim tõepära.
vaja on:
• järjestuste joondust
• järjestuse evolutsiooni mudelit
• puud (topoloogia ja harude pikkused)
Hüpoteesiks on fülogeneetiline puu
Igale nukleotiidipositsioonile joonduses omistatakse tõepära
väärtus. Kõigi positsioonide tõepärad summeeritakse.
Mutatsioonide tõenäosused saadakse DNA evolutsiooni
mudelist. Erinevalt säästumeetodist tuleb nüüd võrrelda ka
puid, mis erinevad ainult harupikkuste poolest, s.t.
eellasseisundite poolest.
Bayes`i meetod püüab hinnata hüpoteesi tõenäosust
Bayesi meetod on samuti tõepärameetod, kuid
kasutab veidi teistsugust lähenemist. Selle asemel, et
arvutada andmete tõenäosusi, püüab Bayesi meetod
anda tõenäosushinnagu hüpoteesile enesele,
kasutades selleks mingit eelteadmist.
Võrdle: ML hinnang mündiviskele, millel 2 korda
visates tuleb kull, on p = 1. Kuna münt näib tavaline
ja tuleb oma rahakotist, siis eeldaks, et p on 0,5.
Bayes`i lähenemine võimaldab võtta arvesse
aprioorset tõenäosust 0,5.
Bayes`i lähenemine võimaldab võtta arvesse
eelteadmisi ehk aprioorset tõenäosust selleks, et leida
aposterioorset tõenäosust.
Haiguse diagnoosimisel tehakse 0,1% vigu. Aprioorne
tõenäosus, et positiivne testi vastus tähendabki haigust on
99,9%.
Võtame arvesse eelteadmise, et haiguse esinemissagedus on
0,1%. S.t. miljonist inimesest on 1000 haiged ja 999000
terved.
Positiivse vastuse saavad 999 haiget ja 999 tervet inimest.
Seega positiivse vastuse saanul haiguse esinemise
aposterioorne tõenäosus on 999/(999+999) = 50%.
Bayes`i meetod püüab hinnata hüpoteesi tõenäosust
hüpoteesi ja
andmete ühine
tõenäosus
hüpoteesi tõepära ja tõenäosus
andmete tõenäosus (summa üle kõigi hüpoteeside)
Hüpoteeside võrdlemisel taandub andmete tõenäosus välja.
Reaalsete andmete puhul pole aposterioorne tõenäosus kõigile
võimalikele puudele(, mis statistikaks vajalik on) välja arvutatav.
Markovi ahela Monte Carlo (MCMC)
• Võetakse puu ning tehakse sellele juhuslikke ümberkorraldusi.
• Võrreldakse eelmist ja uut puud tõepärade ja aprioorsete tõenäosuste
suhte alusel.
• Kui uus puu on tõenäolisem, siis valitakse uus puu uute
ümberkorralduste aluseks.
• Kui uus puu on vähem tõenäoline, siis on tema valimise tõenäosus
võrdne tema suhtelise tõenäosusega.
• Kui uut puud ei valita, siis tehakse uued ümberkorraldused eelmisele
puule.
• Peetakse meeles, kui kaua ühe puuga töötati. Moodustub puude
valim. Korrektse Markovi ahela korral on iga puu valimise tõenäosus
võrdne tema aposterioorse tõenäosusega.
Tekkinud puude valim annab infot üksikute klaadide
monofüleetilisuse kohta.
Puid valimis 100000, neist 75400 sisaldab klaadi B
Tõenäosus, et rühm B on monofüleetiline
75400/100000 = 75.4%
Suurima tõepära ja Bayes`i meetodid võimaldavad testida
järjestuste evolutsiooni mudeleid, juhul kui puu on teada,
ja ka teisi evolutsioonis olulisi parameetreid nagu näiteks
populatsiooni suuruse muutused ja mutatsioonikiiruse
muutused.
Fülogeneetiliste puude konstrueerimise meetodite kokkuvõte
Kõigi fülogeneesi rekonstrueerimise algoritmide
omadused on hästi kirjeldatavad ja kontrollitavad.
Selleks lastakse neil rekonstrueerida evolutsioonipuid,
mis on teada (näiteks arvutisimulatsioonist)
Statistilised meetodid on kõige paindlikumad ning
annavad parimaid tulemusi. Samas sõltuvad need
tulemused paljudest eeldustest, mille kontrollimata
jätmisel on oht tulemusi üleinterpreteerida.
Kas opossum on primitiivsem liik
kui inimene?
“Primitiivne” pole õige sõna. Õige
on rääkida õde-klaadidest, sest kui A
lahkneb B-st, siis samal ajal lahkneb
B ka A-st.
Kas jääkaru on lähemalt suguluses
leemuri või inimesega? (A)
Võrdses suguluses, sest mõlemal
paaril on sama ühine eellane.