Transcript 11 paskaita

Doc. Robertas Damaševičius
KTU Programų inžinerijos katedra,
Studentų 50-415
Email: [email protected]
Filogenetinė analizė (1)
 Tikslas: nustatyti evoliucinius sąryšius tarp organizmus ir
atvaizduoti juos kaip filogenetinį medį.
 Filogenetinis (evoliucinis) medis: medis parodantis
evoliucinius ryšius tarp įvairių rūšių, kurie manoma turi
bendrą protėvį
 Kiekvienas mazgas atitinka jo šakų protėvį
 šakų ilgis kartais atitinka laiko vienetus.
Bioinformatika (B110M100)
2
Filogenetinė analizė (2)
 Filogenetinių medžių tipai:
 šakninis medis yra kryptinis medis su unikaliu mazgu,
atitinkančiu bendrą visų medžio lapų protėvį;
 bešaknis medis tik iliustruoja medžio lapų panašumą, tačiau
nedaro prielaidų apie jų protėvius.
 Filogenetinių medžių vaizdavimui naudojamos
diagramos:
 Dendrograma yra bet kokio tipo filogenetinį medį vaizduojanti
diagrama.
 Kladograma yra diagrama, kurioje vaizduojamas tik medžio
šakojimasis, tačiau nėra vaizduojamas laikas.
 Filograma – diagrama, kurioje vaizduojamas evoliucinių
pasikeitimų skaičius.
Bioinformatika (B110M100)
3
Evoliucinių medžių sudarymas
 Filogenetinių medžių sudarymą tiria skaičiuojamoji
filogenetika
 Nagrinėja skaičiavimo algoritmų, metodų ir programų taikymą
filogenetinei analizei atlikti.
 Tikslas: sukonstruoti filogenetinį medį, atvaizduojantį hipotetinį
evoliucinį ryšį tarp genų arba atskirų rūšių.
 Problemos:
 Daugybinis sekų sugretinimas tarp genų arba amino rūgščių sekų.
 Panašumo (homologijos) tarp sekų apibrėžimas.
 Godumo (parsimony) principas
 trumpiausias hipotetinis pokyčių kelias, kuris paaiškina dabartinį
fenotipą laikomas tikėtiniausiu evoliuciniu keliu.
Bioinformatika (B110M100)
4
Ev. medžių konstravimo
algoritmų sudėtingumas
Medžio tipas
Bešaknis
Minimalaus
maksimumo
Eksponentinis
Minimalios
sumos
Eksponentinis
Minimalaus
dydžio
Nežinomas
Šakninis
O(n2)
Eksponentinis
Eksponentinis
Bioinformatika (B110M100)
5
Evoliucinių medžių tipai
 Minimalaus maksimumo evoliuciniai medžiai –
minimizuojama maksimali (dt(si , s j )  d (si , s j )) reikšmė.
 Minimalios sumos evoliuciniai medžiai –
minimizuojama bendroji atstumų tarp visų lapų suma.
 Minimalaus dydžio evoliuciniai medžiai –
minimizuojamas bendrasis medžio ilgis.
 Čia dt(si , s j ) apibrėžia atstumą tarp si ir sj evoliuciniame
medyje, o d (si , s j ) - atstumą tarp si ir sj atstumų matricoje.
Bioinformatika (B110M100)
6
Filogenetinių medžių sudarymo
algoritmai (1)
 Atstumų matricos metodai remiantis biomolekulinių sekų
daugybinio sugretinimo rezultatais apskaičiuoja genetinį
atstumą tarp tiriamų organizmų
 Kaimynų apjungimo metodas
 UPGMA (Unweighted Pair Group Method with Arithmetic Mean)




metodas
Iš turimų sekų yra sukonstruojama atstumų matrica, iš kurios yra
konstruojamas filogenetinis medis.
Medžio šakų ilgis atkartoja stebimus atstumus tarp sekų.
Pranašumai: lengva realizuoti, nenaudoja jokio specialaus evoliucinio
modelio.
Trūkumas: negalima efektyviai panaudoti informacijos apie aukšto
kintamumo sekų sritis.
Bioinformatika (B110M100)
7
Filogenetinių medžių sudarymo
algoritmai (2)
 Evoliuciniu modeliu grįsti metodai naudoja aiškų
evoliucijos modelį.
 Maksimalaus godumo metodas
 Šakų ir ribų (Branch and bound) algoritmas
 Fitch-Margoliash metodas
 Maksimalaus panašumo metodas
Bioinformatika (B110M100)
8
Kaimynų apjungimo metodas
8-1 algoritmas.
Kaimynų apjungimo metodas.
Įvestis:
n rūšių aibė S ir jos atstumų matrica.
Išvestis:
Bešaknis evoliucinis S medis.
1 žingsnis: Sudarykite 1-žvaigždės medį T su centriniu mazgu x ir lapais.
Suskaičiuokite vidurkį averagesi  = 1  j i d ( si , s j ).
n 1
k = 1.
2 žingsnis: Jeigu x laipsnis yra didesnis negu 3, o dvi rūšys si ir sj greta x
yra
tokios,
kad
maksimizuojama
reikšmė
averagesi   averages j  d (si , s j ) .
 
3 žingsnis:
Įstatykite intervalo mazgą xk su laipsniu 3 į T taip, kad
yra prijungtas prie x, s i ir
4 žingsnis:
xk
sj .
Jeigu x laipsnis yra lygus 3, grąžinkite T ir baikite darbą;
priešingu atveju k = k + 1 ir pereikite prie 2 žingsnio.
Bioinformatika (B110M100)
9
UPGMA metodas
8-2 algoritmas.
UPGMA
Įvestis:
n rūšių aibė S ir jos atstumų matrica.
Išvestis:
Šakninis evoliucinis S medis.
1 žingsnis: Suraskite dvejas rūšis x ir y , kad atstumas d ( x, y ) būtų mažiausias.
2 žingsnis:
3 žingsnis:
4 žingsnis:
Sukurkite naują rūšį, pažymėtą kaip ( x, y ) .
Sukonstruokite medį naudodami ( x, y ) kaip šaknį.
Ištrinkite x ir y iš atstumų matricos.
Jeigu visos rūšys jau yra ištrintos, grąžinti medį,
kurio šaknis yra ( x, y ) ir išeiti.
Priešingu atveju atnaujinti atstumų matricą.
Atstumas d ( z, ( x, y)) apskaičiuojamas taip:
1
d ( z, ( x, y ))  (d ( z, x))  d ( z, y )) .
2
Eikite į 1 žingsnį.
Bioinformatika (B110M100)
(a)
10
Maksimalaus godumo metodas
8-3 algoritmas. Maksimalaus godumo metodas
Įvestis:
Daugybinio sugretinimo seka u.
Išvestis:
Minimalus u medis S.
1 žingsnis:
Tegul kaštai C = 0, k = 2N-1
2 žingsnis:
Jeigu k yra lapas, Rk = {xk [u]}
Jeigu k nėra lapas, tegul i ir j yra mazgo vaikai.
Jeigu Si  Sj  , tuomet Sk = Si  Sj .
Priešingu atveju, Sk = Si  Sj ir C += 1
3 žingsnis:
Kartoti 2 žingsnį, kol yra k.
Bioinformatika (B110M100)
(a)
11
Šakų ir ribų algoritmas
 Naudojamas artimų optimaliam sprendimų paieškos efektyvumui
padidinti.
 Labai gerai tinka filogenetinių medžių konstravimo problemai spręsti,
nes padalina probleminę sritį į medžio struktūros mažesnes posritis.
 Įvestis yra šakojimosi taisyklė (naujai pridedama seka) ir riba (taisyklė,
kuri pašalina tam tikras paieškos srities dalis laikant, kad juose negali
būti optimalaus sprendimo).
 Ribų nustatymui galima taikyti Zharkikh taisykles, kurios apriboja
paieškos erdvę apibrėždamos „godžiausių“ medžių charakteristikas:
 1) reikia pašalinti visas besidubliuojančias sekas (išskyrus vieną)
 2) pašalinti visus fragmentus, kurie neatsikartoja mažiausiai dviejose
rūšyse.
Bioinformatika (B110M100)
12
Fitch-Margoliash metodas
 Klasterizavimui naudoja svorinį mažiausių kvadratų metodą.
 Medžio konstravimo metu artimoms sekoms yra suteikiamas
didesnis svoris, kad ištaisyti didesnį atstumų matavimo
netikslumą tarp tolimų sekų.
 Jeigu sekų evoliucijos greičiai skiriasi, atstumus reikia koreguoti
 Duomenų korekcijai naudojama pakitimų matrica gautą iš JukesCantor DNR evoliucijos modelio.
 Metodas yra tikslesnis negu kaimynų apjungimo metodas, tačiau
ne toks efektyvus (sudėtingumas -eksponentinis).
Bioinformatika (B110M100)
13
Maksimalaus panašumo metodas
 Panašus į maksimalaus godumo metodą, tačiau evoliucijos




greitis skirtingose šakose gali skirtis.
Naudoja standartinius statistinius metodus skirtus tikimybių
reikšmių priskyrimui galimiems filogenetiniams medžiams.
Naudoja pakeitimų modelį, kuriame įvertinama tam tikrų
mutacijų galimybė.
Medis, kuriam suformuoti reikia daugiau mutacijų, yra laikomas
mažiau tikėtinu.
Gerai tinka tolimai susijusių sekų analizei, tačiau kadangi reikia
atlikti pilną paiešką medyje, jis retai naudojamas daugiau negu
su keliomis sekomis.
Bioinformatika (B110M100)
14
Newick formatas
 Filogenetiniai medžiai gali būti atvaizduojami
kompiuterio skaitomu formatu naudojant Newick
formatą.
 Šiame formate naudojami tokie specialūs simboliai:
 skliaustai ( ... ) – reiškia visą medį arba atskirą pomedį;
 kablelis – atskiriamos medžio šakos;
 dvitaškis – naudojamas šakos ilgiui nurodyti;
 kabliataškis – žymi medžio pabaigą.
Bioinformatika (B110M100)
15
Newick formato gramatinis aprašas
medis
=>
palikuonių_sąrašas =>
pomedis
=>
lapas
=>
žymė
=>
šakos_ilgis
=>
palikuonių_sąrašas [ žymė ] [ : šakos_ilgis ] ;
( pomedis { , pomedis } )
palikuonių_sąrašas [ žymė ] [ : šakos_ilgis ] | lapas
žymė [ : šakos_ilgis ]
simbolių_eilutė
skaičius
 Rodyklė => reiškia gramatinę taisyklę;
 laužtiniais skliaustais [ ] skiriamos nebūtinos gramatinės taisyklės dalys;
 riestiniais skliaustais { } skiriamos dalys, kurios gali kartotis daug kartų;
 vertikalus brūkšnys | reiškia alternatyvą.
Bioinformatika (B110M100)
16
Filogenetinio medžio pavyzdys
((simpanze,zmogus),((orangutangas,gibonas),gorila));
Bioinformatika (B110M100)
17