Transcript UPGMA puu
Fülogeneesi rekonstrueerimine Eva-Liis Loogväli 09.03.2012 Fülogeneetika (phylogenetics) – bioloogia haru, mis uurib organismi(rühma)de päritolu ja põlvnemiskäiku. Fülogenees (phylogeny) – organismi(rühma)de päritolu; fülogeneetiline puu ja selle teke phylē (kr.k.) – hõim genesis (kr.k.) – sünd Willi Hennig (1913-1976) Grundzüge einer Theorie der phylogenetischen Systematik, 1950. Fülogeneetika (kladistika) on selline bioloogiline süstemaatika, mis klassifitseerib organisme nende ühise päritolu põhjal. Fülogeneetika erineb teistest taksonoomilistest süsteemidest (nt feneetikast) selle poolest, et rõhk on ühiselt esivanemalt päritud uutel tunnustel. Feneetika klassifitseerib üldise sarnasuse alusel, eesmärgiks pole fülogeneesi rekonstrueerimine, kuigi feneetilisi meetodeid saab selleks kasutada. Elu puu Tree of Life Web: http://tolweb.org from: Carl Zimmer. Evolution (William Heinemann, • Tegelik puu – reaalselt toimunud fülogeneesi kujutis. Enamasti pole teada. ÜKS ja ainus • Tuletatud e. konstrueeritud puu – fülogeneesi mudel, hüpotees. Konstrueeritakse olemasolevate andmete põhjal. Võib, kuid ei pruugi olla identne tegeliku puuga. Tavaliselt saab andmetest tuletada mitu puud. Puu =tipp e Operational Taxonomic Unit, OTU välimine haru =sõlm =sisemine haru =juur (MRCA) Puu on matemaatiline struktuur, mida kasutame fülogeneesi mudelina. hiired küülikud kängurud küülikud hiired kängurud Puud on pööratavad, oluline on ainult lahknemiste järjekord evolutsiooniline puu ehk fülogeneetiline puu ehk kladogramm ehk dendrogramm Klaad on monofüleetiline klaster Nt karu ja inimese viimane ühine eellane ning kõik tema järglased. Fülogeneetilised klastrid jagunevad: • monofüleetiline • parafüleetiline • polüfüleetiline monofüleetiline parafüleetiline parafüleetiline polüfüleetiline kahepaiksed kalad imetajad linnud roomajad amnioodid tetrapoodid selgroogsed Kladistilised meetodid käsitlevad iga tunnust eraldi ja eeldusel, et need on sõltumatud ja diskreetsed, näiteks: • morfoloogilised (purihammaste kuju) • füsioloogilised (imetamine, munemine) • molekulaargeneetilised (nukleotiidid DNA järjestuses). Tunnuse seisund on homoloogne, kui see on päritud ühiselt eellaselt ja homoplaasne, kui on tekkinud sõltumatult. homoloogia homoplaasia Fülogeneetilisi suhteid peegeldavad ainult ühiselt eellaselt päritud tunnused ehk homoloogsed tunnused. •kehakatted lind krokodill sisalik kilpkonn lind krokodill sisalik kilpkonn •jalgade arv •soojasus •kolju •jalgade asend sisalik krokodill lind aeg fenotüüp • Krokodill ja sisalik jagavad ürgseid, plesiomorfseid tunnuseid • Lindude evolutsioon on olnud kiirem vanemad ja uuemad tunnuse seisundid apomorfne plesiomorfne sünapomorfne homoloogne vanem seisund (ancestral state) autapomorfne homoplaasne uuem seisund (derived state) Homoloogiate äratundmiseks on mitu võimalust: • samasugune anatoomiline põhistruktuur • sarnased ühendused kõrvalasetsevate struktuuridega • sarnane embrüoloogiline päritolu ja areng • molekulaarsete andmete puhul tuleb lähtuda enamuskonsensusest ja statistikast. Homoplaasia põhjused paralleelne / konvergentne sekundaarne kaotus ehk reversioon Lindude, pterosauruste ja nahkhiirte tiivad on homoloogsed kui esijäsemed, aga homoplaassed kui lennuvahendid! Lind 1 2 3 8 1 2 3 8 9 6 7 4 5 10 4 5 10 Nahkhiir 9 6 7 Tunnuste polaarsuse määramiseks tuleb puud juurida juur juurimata puu Juur annab puule ajalise mõõtme juuritud puu juur Puude juurimiseks ja tunnuste polaarsuse määramiseks sobivad fossiilsed andmed, juhul kui neid on rikkalikult. Näiteks imetajasarnaste roomajate fossiilseid leiud evolutsioon suht.täielik fossiilide seeria suht.ebatäielik fossiilide seeria Enamasti on fossiilide seeriad (väga) ebatäielikud ja tekitavad tunnuste polaarsuse määramisel segadust. Juurimine välisrühma abil Välisrühma kasutamine eeldab eelteadmisi fülogeneesist lindude ja imetajate MRCA on vanem kui imetajate MRCA. Välisrühma abil juurimine kasutab parsimoonsuse ehk säästuprintsiipi välisrühm Antud näitest selgub, et jänestel on lindudega rohkem ühiseid plesiomorfisme kui teistel imetajatel. Molekulaarses fülogeneetikas kasutatakse DNA järjestusi (A, T, C, G) või aminohappelisi järjestusi + • saab võrrelda väga erinevaid organisme • informatsiooni suur hulk, mutatsioone on palju • tunnused on omavahel võrreldavad, on võimalus kasutada matemaatilisi mudeleid • homoplaasiate hulk on suur • molekulaarseid homoplaasiaid saab lahendada enamasti ainult konsensuse alusel Fülogeneesi rekonstrueerimine eri tasemeil: • Geeniperekonnad geeniduplikatsioonid, -deletsioonid • Haplotüübid (liigisisene) genealoogia mitterekombineerunud DNA lõikude põhjal • Liigid ja kõrgemad taksonid paljude lookuste põhjal, fülogenoomika Molekulaarse fülogeneetika metoodika (http://evolution-textbook.org -> content -> online chapters): Vali geen: näiteks: ss-rRNA valk geenidevaheline Oluline on, et järjestused varieeruksid piisavalt, et neid eristada, kuid mitte sel määral, et see segab joondamist. Joondamine (alignment) – järjestuste paigutamine selliselt, et kohakuti on homoloogilised nukleotiidid või aminohapped Samade järjestuste kaks võimalikku joondust. Indelitega ja ilma. Joondus on hüpotees. Samadest järjestustest saab teha erinevaid joondusi. Positsiooniliselt homoloogilised nukleotiidid võivad olla identsed konvergentsi tõttu (homoplaasia). Homoloogsed geenid: Ortoloogsed ühisest eellasgeenist liigitekke käigus Paraloogsed - ühisest eellasgeenist duplitseerumise tulemusena Ksenoloogsed horisontaalse ülekande tulemusena liigiteke Kui analüüsi satuvad tuvastamata paraloogid: Liigipuid rekonstrueerib fülogenoomika – paljude geenide samaaegne analüüs liikide puu (1(2,3)) geenide puu ((1,2)3) Molekulaarse fülogeneetika metoodika: arvuta puu Fülogeneesipuude konstrueerimise meetodite klassid: • säästumeetod ehk parsimoonsus • distantsmeetod • suurima tõepära ja Bayes`i meetodid Säästumeetod järgib Occami habemenoa ehk säästuprintsiipi - muude asjaolude võrdsuse korral tuleb eelistada lihtsamat hüpoteesi. Otsitakse puud, mis on kõige lühem. Säästumeetodil rekonstrueeritud fülogeneesipuul rekonstrueeritakse ka eellasseisundid Probleemid: võimalike puude arv, mille seast otsida, on väga suur Puude otsingu meetodeid on palju. Neid kasutatakse koos säästu-, distants- ja tõepära meetoditega. Otsingualgoritmid alustavad etteantud puust ning teevad sellesse ükshaaval ümberkorraldusi. Igale uuele puule leitakse pikkus ning kui see on lühem eelmisest, siis tehakse ümberkorraldusi omakorda sellele. Seni kuni lühemat ei leita. näiteks pruning and regrafting “mägironimise” algoritm Tulemus võib sõltuda sellest, millisest alampuust alustada Distantsmeetodid Distantsmeetodid lähtuvad eeldusest, et need kelle viimane ühine eellane elas hiljem, on sarnasemad kui need, kelle oma elas varem. (Distantsmeetodid on oma lähenemiselt feneetilised) Distantsmeetod kasutab algandmetena distantsmaatrikseid Milline on evolutsiooniline kaugus A ja D vahel? paariviisilised kaugused joonduselt evoluts. kaugused puu pealt Reaalsete andmete puhul ei lange vaadeldavad kaugused ja puu kaugused kokku (homoplaasiad) Distantsmeetod otsib puud, mille korral kokkulangevus vaadeldavate distantside ja puu distantside vahel oleks suurim. • Võib otsida paljude puude seast sobivaimat • või kasutada algoritmi, mis konstrueerib distantside põhjal ühe puu -> UPGMA kaalumata paaride meetod aritmeetilise keskmisega on distantsmeetod, mis kasutab klasterdamisalgoritmi Eeldus: evolutsiooni kiirus on konstantne UPGMA Kui evolutsioonikiirus ei ole konstantne, siis konstrueerib UPGMA puu, mille topoloogia on vale distantsmaatriks tegelik evolutsioon UPGMA puu: Vale! Naabrite ühendamise meetod kasutab klasterdamisalgoritmi puu topoloogia ja harupikkuste leidmiseks distantsmaatriksi alusel nii, et puu pikkus oleks lühim naabrite ühendamise meetod Mutatsiooniline küllastumine DNA erinevuse määr (%) lahknemisaeg Evolutsiooniline kaugus on muutuste hulk Distantsmaatriksites kasutatakse enamasti parandatud kaugusi, mis arvestavad mitmekordse muteerumisega. Eeldatav asenduste hulk parandus vaadeldav asenduste hulk lahknemisaeg mitokondr. rRNA tuuma rRNA Kauguste parandamine Jukes-Cantori meetodil D – parandatud kaugus λ – vaadeldud kaugus (erinevuste osakaal) Jukes-Cantori DNA evolutsiooni mudeli eeldused • kõik nukleotiidid võivad muutuda kõigiks nukleotiidideks sama suure tõenäosusega • järjestused sisaldavad igat nukleotiidi 25% Eeldusi DNA aluspaaride muteerumiste tõenäosuste kohta nimetatakse DNA evolutsiooni mudeliks • geneetiliste kauguste parandamiseks • järjestuste joondustele skooride andmiseks • säästumeetodil saadud puule skooride andmiseks • suurima tõepära meetodi rakendamisel puudele skooride andmiseks Suurima tõepära ja Bayes`i meetodid on statistilisemad. Võimaldavad hinnata, kui palju on üks puu tõenäolisem kui teine. Tõepära – tõenäosus näha antud andmeid eeldusel, et hüpotees kehtib Bayes`i teoreemi järgi saab leida hüpoteesi tõenäosuse eeldusel, et teame hüpoteesi aprioorset tõenäosust ja näeme antud andmeid Joseph Felsenstein alates 1970d Tõepärade suhte arvutamine mündiviske näitel kull -1 kiri -2 H1: P(1) = P(2) = 0,5 H2: P(1) = 0,6; P(2) = 0,4 10 korda visatakse: 1222212121 Tõepära(1222212121 | 0,5:0,5) = 0,510 = 0.0009765625 Tõepära(1222212121 | 0,6:0,4) = 0,64 * 0,46 = 0.0005308416 H1 on 1,84 korda tõepärasem kui H2 nende andmete korral Suurima tõepära meetod Meetod peab lahendama kaks probleemi: 1. Leidma iga puu jaoks tõepära väärtuse 2. Leidma puu (puud), millel on suurim tõepära. vaja on: • järjestuste joondust • järjestuse evolutsiooni mudelit • puud (topoloogia ja harude pikkused) Hüpoteesiks on fülogeneetiline puu Igale nukleotiidipositsioonile joonduses omistatakse tõepära väärtus. Kõigi positsioonide tõepärad summeeritakse. Mutatsioonide tõenäosused saadakse DNA evolutsiooni mudelist. Erinevalt säästumeetodist tuleb nüüd võrrelda ka puid, mis erinevad ainult harupikkuste poolest, s.t. eellasseisundite poolest. Bayes`i meetod püüab hinnata hüpoteesi tõenäosust Bayesi meetod on samuti tõepärameetod, kuid kasutab veidi teistsugust lähenemist. Selle asemel, et arvutada andmete tõenäosusi, püüab Bayesi meetod anda tõenäosushinnagu hüpoteesile enesele, kasutades selleks mingit eelteadmist. Võrdle: ML hinnang mündiviskele, millel 2 korda visates tuleb kull, on p = 1. Kuna münt näib tavaline ja tuleb oma rahakotist, siis eeldaks, et p on 0,5. Bayes`i lähenemine võimaldab võtta arvesse aprioorset tõenäosust 0,5. Bayes`i lähenemine võimaldab võtta arvesse eelteadmisi ehk aprioorset tõenäosust selleks, et leida aposterioorset tõenäosust. Haiguse diagnoosimisel tehakse 0,1% vigu. Aprioorne tõenäosus, et positiivne testi vastus tähendabki haigust on 99,9%. Võtame arvesse eelteadmise, et haiguse esinemissagedus on 0,1%. S.t. miljonist inimesest on 1000 haiged ja 999000 terved. Positiivse vastuse saavad 999 haiget ja 999 tervet inimest. Seega positiivse vastuse saanul haiguse esinemise aposterioorne tõenäosus on 999/(999+999) = 50%. Bayes`i meetod püüab hinnata hüpoteesi tõenäosust hüpoteesi ja andmete ühine tõenäosus hüpoteesi tõepära ja tõenäosus andmete tõenäosus (summa üle kõigi hüpoteeside) Hüpoteeside võrdlemisel taandub andmete tõenäosus välja. Reaalsete andmete puhul pole aposterioorne tõenäosus kõigile võimalikele puudele(, mis statistikaks vajalik on) välja arvutatav. Markovi ahela Monte Carlo (MCMC) • Võetakse puu ning tehakse sellele juhuslikke ümberkorraldusi. • Võrreldakse eelmist ja uut puud tõepärade ja aprioorsete tõenäosuste suhte alusel. • Kui uus puu on tõenäolisem, siis valitakse uus puu uute ümberkorralduste aluseks. • Kui uus puu on vähem tõenäoline, siis on tema valimise tõenäosus võrdne tema suhtelise tõenäosusega. • Kui uut puud ei valita, siis tehakse uued ümberkorraldused eelmisele puule. • Peetakse meeles, kui kaua ühe puuga töötati. Moodustub puude valim. Korrektse Markovi ahela korral on iga puu valimise tõenäosus võrdne tema aposterioorse tõenäosusega. Tekkinud puude valim annab infot üksikute klaadide monofüleetilisuse kohta. Puid valimis 100000, neist 75400 sisaldab klaadi B Tõenäosus, et rühm B on monofüleetiline 75400/100000 = 75.4% Suurima tõepära ja Bayes`i meetodid võimaldavad testida järjestuste evolutsiooni mudeleid, juhul kui puu on teada, ja ka teisi evolutsioonis olulisi parameetreid nagu näiteks populatsiooni suuruse muutused ja mutatsioonikiiruse muutused. Fülogeneetiliste puude konstrueerimise meetodite kokkuvõte Kõigi fülogeneesi rekonstrueerimise algoritmide omadused on hästi kirjeldatavad ja kontrollitavad. Selleks lastakse neil rekonstrueerida evolutsioonipuid, mis on teada (näiteks arvutisimulatsioonist) Statistilised meetodid on kõige paindlikumad ning annavad parimaid tulemusi. Samas sõltuvad need tulemused paljudest eeldustest, mille kontrollimata jätmisel on oht tulemusi üleinterpreteerida. Kas opossum on primitiivsem liik kui inimene? “Primitiivne” pole õige sõna. Õige on rääkida õde-klaadidest, sest kui A lahkneb B-st, siis samal ajal lahkneb B ka A-st. Kas jääkaru on lähemalt suguluses leemuri või inimesega? (A) Võrdses suguluses, sest mõlemal paaril on sama ühine eellane.