Transcript 11 paskaita
Doc. Robertas Damaševičius KTU Programų inžinerijos katedra, Studentų 50-415 Email: [email protected] Filogenetinė analizė (1) Tikslas: nustatyti evoliucinius sąryšius tarp organizmus ir atvaizduoti juos kaip filogenetinį medį. Filogenetinis (evoliucinis) medis: medis parodantis evoliucinius ryšius tarp įvairių rūšių, kurie manoma turi bendrą protėvį Kiekvienas mazgas atitinka jo šakų protėvį šakų ilgis kartais atitinka laiko vienetus. Bioinformatika (B110M100) 2 Filogenetinė analizė (2) Filogenetinių medžių tipai: šakninis medis yra kryptinis medis su unikaliu mazgu, atitinkančiu bendrą visų medžio lapų protėvį; bešaknis medis tik iliustruoja medžio lapų panašumą, tačiau nedaro prielaidų apie jų protėvius. Filogenetinių medžių vaizdavimui naudojamos diagramos: Dendrograma yra bet kokio tipo filogenetinį medį vaizduojanti diagrama. Kladograma yra diagrama, kurioje vaizduojamas tik medžio šakojimasis, tačiau nėra vaizduojamas laikas. Filograma – diagrama, kurioje vaizduojamas evoliucinių pasikeitimų skaičius. Bioinformatika (B110M100) 3 Evoliucinių medžių sudarymas Filogenetinių medžių sudarymą tiria skaičiuojamoji filogenetika Nagrinėja skaičiavimo algoritmų, metodų ir programų taikymą filogenetinei analizei atlikti. Tikslas: sukonstruoti filogenetinį medį, atvaizduojantį hipotetinį evoliucinį ryšį tarp genų arba atskirų rūšių. Problemos: Daugybinis sekų sugretinimas tarp genų arba amino rūgščių sekų. Panašumo (homologijos) tarp sekų apibrėžimas. Godumo (parsimony) principas trumpiausias hipotetinis pokyčių kelias, kuris paaiškina dabartinį fenotipą laikomas tikėtiniausiu evoliuciniu keliu. Bioinformatika (B110M100) 4 Ev. medžių konstravimo algoritmų sudėtingumas Medžio tipas Bešaknis Minimalaus maksimumo Eksponentinis Minimalios sumos Eksponentinis Minimalaus dydžio Nežinomas Šakninis O(n2) Eksponentinis Eksponentinis Bioinformatika (B110M100) 5 Evoliucinių medžių tipai Minimalaus maksimumo evoliuciniai medžiai – minimizuojama maksimali (dt(si , s j ) d (si , s j )) reikšmė. Minimalios sumos evoliuciniai medžiai – minimizuojama bendroji atstumų tarp visų lapų suma. Minimalaus dydžio evoliuciniai medžiai – minimizuojamas bendrasis medžio ilgis. Čia dt(si , s j ) apibrėžia atstumą tarp si ir sj evoliuciniame medyje, o d (si , s j ) - atstumą tarp si ir sj atstumų matricoje. Bioinformatika (B110M100) 6 Filogenetinių medžių sudarymo algoritmai (1) Atstumų matricos metodai remiantis biomolekulinių sekų daugybinio sugretinimo rezultatais apskaičiuoja genetinį atstumą tarp tiriamų organizmų Kaimynų apjungimo metodas UPGMA (Unweighted Pair Group Method with Arithmetic Mean) metodas Iš turimų sekų yra sukonstruojama atstumų matrica, iš kurios yra konstruojamas filogenetinis medis. Medžio šakų ilgis atkartoja stebimus atstumus tarp sekų. Pranašumai: lengva realizuoti, nenaudoja jokio specialaus evoliucinio modelio. Trūkumas: negalima efektyviai panaudoti informacijos apie aukšto kintamumo sekų sritis. Bioinformatika (B110M100) 7 Filogenetinių medžių sudarymo algoritmai (2) Evoliuciniu modeliu grįsti metodai naudoja aiškų evoliucijos modelį. Maksimalaus godumo metodas Šakų ir ribų (Branch and bound) algoritmas Fitch-Margoliash metodas Maksimalaus panašumo metodas Bioinformatika (B110M100) 8 Kaimynų apjungimo metodas 8-1 algoritmas. Kaimynų apjungimo metodas. Įvestis: n rūšių aibė S ir jos atstumų matrica. Išvestis: Bešaknis evoliucinis S medis. 1 žingsnis: Sudarykite 1-žvaigždės medį T su centriniu mazgu x ir lapais. Suskaičiuokite vidurkį averagesi = 1 j i d ( si , s j ). n 1 k = 1. 2 žingsnis: Jeigu x laipsnis yra didesnis negu 3, o dvi rūšys si ir sj greta x yra tokios, kad maksimizuojama reikšmė averagesi averages j d (si , s j ) . 3 žingsnis: Įstatykite intervalo mazgą xk su laipsniu 3 į T taip, kad yra prijungtas prie x, s i ir 4 žingsnis: xk sj . Jeigu x laipsnis yra lygus 3, grąžinkite T ir baikite darbą; priešingu atveju k = k + 1 ir pereikite prie 2 žingsnio. Bioinformatika (B110M100) 9 UPGMA metodas 8-2 algoritmas. UPGMA Įvestis: n rūšių aibė S ir jos atstumų matrica. Išvestis: Šakninis evoliucinis S medis. 1 žingsnis: Suraskite dvejas rūšis x ir y , kad atstumas d ( x, y ) būtų mažiausias. 2 žingsnis: 3 žingsnis: 4 žingsnis: Sukurkite naują rūšį, pažymėtą kaip ( x, y ) . Sukonstruokite medį naudodami ( x, y ) kaip šaknį. Ištrinkite x ir y iš atstumų matricos. Jeigu visos rūšys jau yra ištrintos, grąžinti medį, kurio šaknis yra ( x, y ) ir išeiti. Priešingu atveju atnaujinti atstumų matricą. Atstumas d ( z, ( x, y)) apskaičiuojamas taip: 1 d ( z, ( x, y )) (d ( z, x)) d ( z, y )) . 2 Eikite į 1 žingsnį. Bioinformatika (B110M100) (a) 10 Maksimalaus godumo metodas 8-3 algoritmas. Maksimalaus godumo metodas Įvestis: Daugybinio sugretinimo seka u. Išvestis: Minimalus u medis S. 1 žingsnis: Tegul kaštai C = 0, k = 2N-1 2 žingsnis: Jeigu k yra lapas, Rk = {xk [u]} Jeigu k nėra lapas, tegul i ir j yra mazgo vaikai. Jeigu Si Sj , tuomet Sk = Si Sj . Priešingu atveju, Sk = Si Sj ir C += 1 3 žingsnis: Kartoti 2 žingsnį, kol yra k. Bioinformatika (B110M100) (a) 11 Šakų ir ribų algoritmas Naudojamas artimų optimaliam sprendimų paieškos efektyvumui padidinti. Labai gerai tinka filogenetinių medžių konstravimo problemai spręsti, nes padalina probleminę sritį į medžio struktūros mažesnes posritis. Įvestis yra šakojimosi taisyklė (naujai pridedama seka) ir riba (taisyklė, kuri pašalina tam tikras paieškos srities dalis laikant, kad juose negali būti optimalaus sprendimo). Ribų nustatymui galima taikyti Zharkikh taisykles, kurios apriboja paieškos erdvę apibrėždamos „godžiausių“ medžių charakteristikas: 1) reikia pašalinti visas besidubliuojančias sekas (išskyrus vieną) 2) pašalinti visus fragmentus, kurie neatsikartoja mažiausiai dviejose rūšyse. Bioinformatika (B110M100) 12 Fitch-Margoliash metodas Klasterizavimui naudoja svorinį mažiausių kvadratų metodą. Medžio konstravimo metu artimoms sekoms yra suteikiamas didesnis svoris, kad ištaisyti didesnį atstumų matavimo netikslumą tarp tolimų sekų. Jeigu sekų evoliucijos greičiai skiriasi, atstumus reikia koreguoti Duomenų korekcijai naudojama pakitimų matrica gautą iš JukesCantor DNR evoliucijos modelio. Metodas yra tikslesnis negu kaimynų apjungimo metodas, tačiau ne toks efektyvus (sudėtingumas -eksponentinis). Bioinformatika (B110M100) 13 Maksimalaus panašumo metodas Panašus į maksimalaus godumo metodą, tačiau evoliucijos greitis skirtingose šakose gali skirtis. Naudoja standartinius statistinius metodus skirtus tikimybių reikšmių priskyrimui galimiems filogenetiniams medžiams. Naudoja pakeitimų modelį, kuriame įvertinama tam tikrų mutacijų galimybė. Medis, kuriam suformuoti reikia daugiau mutacijų, yra laikomas mažiau tikėtinu. Gerai tinka tolimai susijusių sekų analizei, tačiau kadangi reikia atlikti pilną paiešką medyje, jis retai naudojamas daugiau negu su keliomis sekomis. Bioinformatika (B110M100) 14 Newick formatas Filogenetiniai medžiai gali būti atvaizduojami kompiuterio skaitomu formatu naudojant Newick formatą. Šiame formate naudojami tokie specialūs simboliai: skliaustai ( ... ) – reiškia visą medį arba atskirą pomedį; kablelis – atskiriamos medžio šakos; dvitaškis – naudojamas šakos ilgiui nurodyti; kabliataškis – žymi medžio pabaigą. Bioinformatika (B110M100) 15 Newick formato gramatinis aprašas medis => palikuonių_sąrašas => pomedis => lapas => žymė => šakos_ilgis => palikuonių_sąrašas [ žymė ] [ : šakos_ilgis ] ; ( pomedis { , pomedis } ) palikuonių_sąrašas [ žymė ] [ : šakos_ilgis ] | lapas žymė [ : šakos_ilgis ] simbolių_eilutė skaičius Rodyklė => reiškia gramatinę taisyklę; laužtiniais skliaustais [ ] skiriamos nebūtinos gramatinės taisyklės dalys; riestiniais skliaustais { } skiriamos dalys, kurios gali kartotis daug kartų; vertikalus brūkšnys | reiškia alternatyvą. Bioinformatika (B110M100) 16 Filogenetinio medžio pavyzdys ((simpanze,zmogus),((orangutangas,gibonas),gorila)); Bioinformatika (B110M100) 17