14 F_logen_rekonstr 2011

Download Report

Transcript 14 F_logen_rekonstr 2011

Fülogeneesi
rekonstrueerimine
Eva-Liis Loogväli
(Eesti Biokeskus)
11.03.2011
Fülogeneetika (phylogenetics) – bioloogia haru, mis
uurib organismirühmade (nt populatsioonide, liikide)
päritolu ja põlvnemiskäiku.
Fülogenees (phylogeny) – organismide rühma päritolu
ja evolutsioon
phylē (kr.k.) – hõim genesis (kr.k.) – sünd
Willi Hennig (1913-1976) Grundzüge einer Theorie
der phylogenetischen Systematik, 1950.
Fülogeneetika (kladistika) on selline
bioloogiline süstemaatika, mis klassifitseerib
organisme nende ühise päritolu põhjal.
Fülogeneetika erineb teistest
taksonoomilistest süsteemidest (nt
feneetikast) selle poolest, et rõhk on pandud
omandatud uutele tunnustele. Feneetika
klassifitseeris tunnuseid nende üldise
morfoloogilise (välimuse) sarnasuse alusel.
Kladistika seevastu on kvantitatiivne ja
käsitleb iga tunnust eraldiseisavana ja
diskreetsena.
Elu puu
Tree of Life Web:
http://tolweb.org
from: Carl Zimmer. Evolution (William Heinemann,
• Tegelik puu – reaalselt toimunud fülogeneesi
kujutis. Enamasti pole teada. ÜKS ja ainus
• Tuletatud e. konstrueeritud puu – tegeliku puu
hinnang; fülogeneesi mudel, hüpotees.
Konstrueeritakse olemasolevate andmete põhjal.
Võib, kuid ei pruugi olla identne tegeliku puuga.
Tavaliselt saab andmetest tuletada mitu puud.
Puu
=tipp e Operational
Taxonomic Unit, OTU
välimine haru
=sõlm
=sisemine haru
=juur
Puu on matemaatiline struktuur, mida kasutame
fülogeneesi mudelina.
hiired
küülikud
kängurud
küülikud
hiired
kängurud
Puud on
pööratavad,
oluline on
ainult
lahknemiste
järjekord
evolutsiooniline
puu ehk
fülogeneetiline puu
ehk kladogramm
ehk dendrogramm
Fülogeneesi rekonstrueeritakse kladistiliste
meedotitega ja jagatud tunnuste alusel
Kladistika kasutab andmetena tunnuseid, millel
on diskreetsed väärtused, näiteks:
• morfoloogilised (purihammaste kuju),
• füsioloogilised (imetamine, munemine)
• molekulaargeneetilised (kromosoomide arv,
nukleotiidne järjestus).
Klaad on monofüleetiline rühm = P ja K viimane
ühine eellane ning kõik tema järglased
parafüülia
parafüülia
polüfüülia
kahepaiksed
kalad
imetajad
linnud
roomajad
amnioodid
tetrapoodid
selgroogsed
Vaadeldes erinevaid tunnuseid,
saame tuletada
erinevaid fülogeneesi puid,
kuid ainult üks saab olla õige.
Fülogeneetilisi suhteid peegeldavad ainult
ühiselt eellaselt päritud tunnused ehk
homoloogsed tunnused.
Tunnuse seisundid (character states)
Homoloogsed tunnused
homoloogia
homoplaasia
Tunnuse seisund kahes liigis on
homoloogne, kui see on päritud ühiselt eellaselt, ja
homoplaasne, kui on tekkinud sõltumatult.
vanemad ja uuemad tunnuse seisundid
apomorfne
plesiomorfne
sünapomorfne
homoloogne
vanem seisund (ancestral state)
autapomorfne
homoplaasne
uuem seisund (derived state)
•kehakatted
lind
krokodill
sisalik kilpkonn
lind
krokodill
sisalik kilpkonn
•jalgade arv
•soojasus
•kolju
•jalgade
asend
Homoloogiate äratundmiseks on mitu võimalust:
• samasugune anatoomiline põhistruktuur
• sarnased ühendused kõrvalasetsevate
struktuuridega
• sarnane embrüoloogiline päritolu ja areng
Õigesti määratud tunnused ja tunnusseisundid
(polaarsus) viitavad alati ühele (õigele) fülogeneesi
puule.
Kui oleme õigesti ära tundnud homoloogiad ja tunnuste
seisundid, siis pole võimalik, et erinevad tunnused viitavad
erinevale puule.
•kehakatted
lind
krokodill
sisalik kilpkonn
lind
krokodill
sisalik kilpkonn
•jalgade arv
•soojasus
•kolju
•jalgade
asend
sisalik krokodill
lind
aeg
fenotüüp
• Krokodill ja sisalik jagavad ürgseid, plesiomorfseid
tunnuseid
• Lindude evolutsioon on olnud kiirem
Homoplaasia kolm põhjust
paralleelne
konvergentne
sekundaarne kaotus e
reversioon
Paralleelne (ja konvergentne) evolutsioon
pärisimetajatel ja kukkurloomadel
hundisarnane
kiskja
puuvõrades
elutsev liugleja
maa sees elutsev
putuktoiduline
Lindude, pterosauruste ja nahkhiirte tiivad on
homoloogsed kui esijäsemed, aga homoplaassed kui
lennuvahendid!
Lind
Nahkhiir
Tunnuste polaarsuse määramiseks tuleb puud juurida
juur
juurimata puu
Juur annab puule
ajalise mõõtme
juuritud puu
juur
Juurimine välisrühma abil
kasutab parsimoonsuse ehk säästuprintsiipi
välisrühm
Välisrühma kasutamine eeldab eelteadmisi fülogeneesist
Puude juurimiseks ja tunnuste polaarsuse
määramiseks sobivad fossiilsed andmed, juhul kui
neid on rikkalikult.
Näiteks imetajasarnaste roomajate fossiilseid leiud
evolutsioon
suht.täielik
fossiilide seeria
suht.ebatäielik
fossiilide seeria
Enamasti on fossiilide seeriad (väga) ebatäielikud ja
tekitavad tunnuste polaarsuse määramisel segadust.
Vaatamata kõigile pingutustele võib kladistilise analüüsi
tulemusena siiski säilida andmetes vastuolusid ja
fülogenees pole üheselt rekonstrueeritav.
• täpsustada andmestikku ja uurida veel põhjalikumalt
• koguda andmeid juurde
• otsustada, et see puu, mida toetab enamik tunnustest,
on õige
+
Molekulaarne fülogeneetika
• Kasutatakse DNA järjestusi (A, T, C, G) või
aminohappelisi järjestusi (20 erinevat
aminohapet)
• Saab võrrelda väga erinevaid organisme
• Informatsiooni suur hulk, mutatsioone on palju
• Tunnused on omavahel võrreldavad, on võimalus
kasutada matemaatilisi mudeleid
• Homoplaasiate hulk on suur
• Molekulaarseid homoplaasiaid ei saa lahendada
“lähemalt asja uurides”, neid saab lahendada
ainult konsensuse alusel
fülogeneesi rekonstrueerimine
eri tasemeil:
• Geenide
duplikatsioonid
• Haplotüüpide
mitte-rekombineeruv
• Organismide (rühmade)
liigisisene genealoogia
• Liikide (rühmade)
paljude lookuste põhjal
Molekulaarse fülogeneetika metoodika:
Vali geen:
näiteks:
ss-rRNA
valk
geenidevaheline
Homoloogsed geenid:
Ortoloogsed ühisest eellasgeenist
liigitekke käigus
Paraloogsed - ühisest
eellasgeenist
duplitseerumise
tulemusena
Ksenoloogsed horisontaalse ülekande
tulemusena
liigiteke
Kui päritakse erinevad paraloogid:
Liigipuid
rekonstrueerib
fülogenoomika
– paljude
geenide
samaaegne
analüüs
geeni
duplikatsioon
liikide puu
geenide puu
Molekulaarse fülogeneetika metoodika:
arvuta puu
Fülogeneesipuude konstrueerimise
meetodite neli põhilist klassi:
•
•
•
•
(1) säästumeetod ehk parsimoonsus
(2) distantsmeetod
(3) suurima tõepära meetod
(4) Bayes`i meetod
(1) Säästumeetod (Maximum Parsimony MP)
järgib Occami habemenoa ehk säästuprintsiipi
1A
2A
3G
4G
otsitakse puud, mis on kõige lühem:
Eellasjärjestuste rekonstrueerimine
Sääästumeetodi jaoks informatiivsed positsioonid
hunt
karu
rebane
siil
jänes
A
A
A
A
A
A
G
G
G
G
C
C
T
T
T
mittevarieeruv positsioon
hunt
karu
rebane
siil
jänes
C
T
C
C
C
G
A
A
G
G
C
C
C
T
T
A
A
A
G
G
C
T
C
T
T
A
T
C
G
G
mitteinformatiivne positsioon
C
C
T
T
T
G
A
A
G
G
C
C
C
T
T
A
A
A
G
G
C
T
C
T
T
...
...
...
...
...
informatiivsed positsioonid
+
+
+
+
+
A
G
G
G
G
C
T
C
C
C
A
T
C
G
G
Probleemid: võimalike puude arv on väga suur
Puude otsingud
põhjalik otsing (exhaustive search) - vaadeldakse kõiki
võimalikke
määratletud otsing (specific tree search) - potentsiaalselt
õigeid
pruning and regrafting topoloogilised ümberkorraldused seni kuni lühemaid ei leita
heuristiline otsing (heuristic search) - ainult väikene hulk
kõigist võimalikest, tõenäolisemad
Otsingualgoritmid alustavad
etteantud puust ning teevad
sellesse ükshaaval
ümberkorraldusi. Igale uuele
puule leitakse pikkus ning kui see
on lühem eelmisest, siis tehakse
ümberkorraldusi omakorda
sellele. Seni kuni lühemat ei leita.
pruning and regrafting
“mägironimise” algoritm
Tulemus võib sõltuda sellest, millisest alampuust alustada
(2) Distantsmeetodid
Distantsmeetodid lähtuvad eeldusest, et need, kelle
viimane ühine eellane elas hiljem, on sarnasemad kui
need, kes lahknesid varem.
Distantsmeetodid kasutavad algandmetena
evolutsioonilisi (geneetilisi) kaugusi
Distantsmeetod kasutab andmetena ainult
distantsmaatrikseid:
vaadeldavad kaugused
puu kaugused
Reaalsete andmete puhul ei lange
vaadeldavad kaugused ja puu kaugused
kokku
Distantsmeetod otsib puud, mille korral
kokkulangevus vaadeldavate distantside ja puu
distantside vahel oleks suurim.
1) Võib otsida paljude puude seast sobivaimat
2) või kasutada algoritmi, mis konstrueerib
distantside põhjal ühe puu.
Klasterdamisalgoritmid
konstrueerivad
Optimummeetodid võrdlevad ja valivad
•
•
•
•
Klasterdamisalgoritmid
konstrueerivad ühe puu
võib sõltuda järjestuste lisamise järjekorrast
Ei võimalda hinnata konkureerivaid hüpoteese
Kiire
Optimummeetodid
• Võimaldavad hinnata puu sobivust andmetega
• Võimaldavad võrrelda erinevaid puid
• Arvutuslikult väga kallid
UPGMA kaalumata paaride meetod aritmeetilise keskmisega
(unweighted pair-group method with arithmetic mean)
on distantsmeetod, mis kasutab klasterdamisalgoritmi
Evolutsioonikiirus peab olema konstantne üle kõigi liinide
tegelik evolutsioonipuu
distantsmaatriks
A
Kui evolutsioonikiirus
ei ole konstantne
üle kõigi liinide,
konstrueerib UPGMA puu,
mille topoloogia on vale.
B
C
D
B
5
C
4
7
D
7
10
7
E
6
9
6
5
F
8
11
8
9
E
8
UPGMA:
Vale!
Naabrite ühendamise meetod on distantsmeetod
(Neighbour joining NJ)
kasutab klasteralgoritmi puu topoloogia ja harupikkuste
leidmiseks distantsmaatriksi alusel nii, et puu pikkus
oleks lühim
Kuidas leida evolutsioonilisi ehk geneetilisi kaugusi?
Evolutsiooniline kaugus on muutuste hulk
• Kõigil juhtudel, v.a. üksikasenduse korral on
tegelik asenduste arv suurem sellest, mis leitakse
homoloogsete järjestuste võrdlemisel.
Mutatsiooniline küllastumine
DNA
erinevuse määr
(%)
lahknemisaeg
Asenduste tegeliku arvu leidmine
DNA
erinevuse määr
Eeldatav asenduste hulk
(%)
parandus
vaadeldav
asenduste hulk
lahknemisaeg
mitok. rRNA
tuuma rRNA
(3) Suurima tõepära meetod (Maximum Likelihood)
(4) Bayes`i meetod on statistilised meetodid
Võimaldavad hinnata, kui palju on üks puu
tõenäolisem kui teine
ML meetodid Joseph Felsenstein
(3) Suurima tõepära meetod (Maximum Likelihood
ML)
Suurima tõepära printsiip
eelistab hüpoteesi, mille korral olemasolevate
andmete tõenäosus on maksimaalne.
Otsib puud (puid), mille tõepära on suurim, s.t.
puud, mille korral tõenäosus näha
olemasolevaid järjestusi, on maksimaalne.
Hindab järjestuste vastavust tuletatud puule.
Ei hinda tuletatud puu vastavust tegelikule puule!
Suurima tõepära meetod
Meetod peab lahendama kaks probleemi:
1. Leidma iga puu jaoks tõepära väärtuse, s.t.
leidma iga puu haru pikkuste tõenäosuse
2. Leidma puu (puud), millel on suurim tõepära.
Erinevalt säästumeetodist vaadeldakse kõiki
võimalikke eellasseisundeid.
Meetod nõuab:
• järjestusi
• järjestuse evolutsiooni mudelit
• puud (topoloogia ja harude pikkused)
DNA evolutsiooni mudelite konstrueerimine
Mudelid võtavad arvesse asenduste kiirusi (tõenäosusi)
ning järjestuse aluspaarilist koostist
• PAA(t) – A püsimajäämise tõenäosus aja t jooksul
• PTC(t) – transitsiooni tõenäosus
• PGC(t) – transversiooni tõenäosus
A
T
C
G
A
PAA(t)
PAT(t)
PAC(t)
PAG(t)
T
PTA(t)
PTT(t)
PTC(t)
PTG(t)
C
PCA(t) PCT(t)
PCC(t)
PCG(t)
G
PGA(t) PGT(t)
PGC(t)
PGG(t)
t – aeg
P - tõenäosus
DNA evolutsiooni mudelid:
Sellel puul on 5 haru. 3 neist ei kanna mutatsiooni
(tõenäosus 1-P) ja 2 kannavad mutatsiooni (tõenäosus P)
Eeldusel, et sisemised sõlmed olid G, on tõenäosus näha
tippudes A,C,G,G -> P2(1-3P)3
A
T
C
G
A
1-3P
P
P
P
T
P
1-3P
P
P
C
P
P
1-3P
P
G
P
P
P
1-3P
G
A
G
C
Arvutusmahu vähendamiseks kasutatakse puude
valimiseks MCMC simulatsioone
G
G
(4) Bayesi meetod
Kasutab aprioorseid tõenäosusi (hüpoteesi tõenäosus
enne andmete nägemist) ja vaatlusandmeid selleks, et
otsustada, milline hüpotees on paremini toetatud
(suurima aposterioorse tõenäosusega)
Thomas Bayes (1764)
h – hüpotees (=puu)
D – data (enamasti summeeritakse vaadeldud
diversiteet parameetris teeta (θ)
Bayesi teoreem
puu aposterioorne P
puu aprioorne P
puu tõepära (ehk
andmete tõenäosus
selle puu korral)
andmete tõenäosus, ∑ (puu tõepära*selle aprioorne tõenäosus)
Seda ei ole võimalik analüütiliselt välja arvutada!
Markovi ahel (Markov chain)
• Seisundite hulk
• Seisundite vahelised
võimalikud üleminekud
koos vastavate
tõenäosustega
• Seisund ajahetkel n + 1
sõltub ainult seisundist
ajahetkel n
Bayesian Inference (BI):
Markovi ahela Monte Carlo (MCMC) simulatsioonid.
Järgmine puu saadakse eelmisest, muutes puu topoloogiat,
haru pikkusi või mudeli parameetreid.
Valimisse jäävad need puud, mis olid eelmisest
tõenäolisemad, andmetega võrreldes.
Korrektse ahela korral on puu osakaal valimis selle puu
aposterioorse tõenäosuse ligikaudseks hinnanguks.
Meetod eeldab:
• järjestusi
• aprioorseid tõenäosusi puu, järjestuse
evolutsiooni mudeli ja teiste parameetrite
kohta
BI (Bayesian Inference)
Toetus klaadile on antud monofüleetilist rühma
sisaldavate puude osakaal valimis
Näide: Puid valimis 100,000, neist 75,400 sisaldab
klaadi B
Tõenäosus, et rühm B on monofüleetiline
(75,400/100,000)x100 = 75.4%
Suurima tõepära ja Bayes`i meetodid võimaldavad
testida järjestuste evolutsiooni mudeleid ja ka teisi
evolutsioonis olulisi parameetreid nagu näiteks
populatsiooni suuruse muutused, hübridiseerumine,
loodusliku valiku mõju, mutatsioonikiiruse muutused.
Kõigi fülogeneesi rekonstrueerimise algoritmide
omadused on hästi kirjeldatavad ja kontrollitavad.
Selleks lastakse neil rekonstrueerida evolutsioonipuid,
mis on teada (näiteks arvutisimulatsioonist)
Statistilised meetodid on kõige paindlikumad ning
annavad parimaid tulemusi. Samas sõltuvad need
tulemused paljudest eeldustest, mille kontrollimata
jätmisel on oht tulemusi üle interpreteerida.