bioinf13 - medinfo.umft.ro

Download Report

Transcript bioinf13 - medinfo.umft.ro

UNIVERSITATEA
POLITEHNICA
TIMIŞOARA
MASTER SIIS
Sisteme Informatice în Îngrijirea
Sănătății
1
www.medinfo.umft.ro/dim/
bioinformatica.htm
2
BIOINFORMATICA
Prof Dr George I Mihalaş
UMF Victor Babeş
3
CURSUL 13
4
ANALIZA
FILOGENETICA (II)
5
Abordări bazate pe distanţe
Punerea problemei: fiind dată o matrice M a distanţelor Mij între
taxonii i şi j, de dimensiune n × n (n = nr de taxoni / frunze),
să se construiască un arbore cu ramuri ponderate (“edgeweighted tree”) Mij.
6
• Proprietăţile
distanţelor
• Date Ultrametrice:
– Ipoteza Ceas ului Molecular: se presupune că
divergenţa secvenţelor apare cu aceeaşi rată în
orice punct din arbore – date ultrametrice
– Ipoteza nu este în general valabilă – procesul de
selecţie variază în diverse perioade de timp, variază
cu organismul, genele unui organism sau regiunile
unei gene
7
Metoda UPGMA
Unweighted Pair Group Method using
Arithmetic Averages
Ideea de bază:
- se compun doi taxoni / clustere, formând un (nou) cluster
- se creează un nou nod pentru noul cluster
- distanţa între două clustere (distanţa între perechi de taxoni
din fiecare cluster):
8
Algoritmul UPGMA
Se consideră fiecare taxon ca un cluster
Se defineşte o frunză pentru fiecare taxon; se plasează la înălţimea
“0” pe scara distanţelor
Când sunt mai mult de două clustere:
-
-
-
Se aleg două clustere, i şi j, pentru care distanţa dij este minimă
-
Se defineşte un nou cluster Ck = Ci U Cj
Se defineşe un nod k părinte al i şi j; se plasează la înălţimea dij / 2
Se înlocuiesc clusterele i şi j cu k
Se calculează distanţa între k şi celelalte clustere
Ultimele două clustere i şi j se unesc cu o rădăcină la înălţimea dij / 2
9
Metoda UPMGA
Unweighted Pair Group Method with
Arithmetic mean
10
Ex.2
11
Metoda Neighbor Joining
Deosebiri faţă de UPGMA:
- nu aplică ipoteza ceasului molecular
- se creează un arbore fără rădăcină
- presupune “aditivitate”: distanţa între perechi de frunze este
suma lungimilor ramurilor care le conectează
Algoritmul – iterativ, asemănător cu UPGMA, cu unele diferenţe
(nu trebuie început cu distanţa minimă, sunt alte formule de
calcul).
12
Parsimonia (Parsimony)
-
Se caută arborele care explică datele cu un număr minim de
schimbări (parcimonios ~ zgârcit, econom)
Se urmăreşte găsirea topologiei, nu lungimile ramurilor
Ex: - sunt mai multe soluţii (sunt prezentate două)
- arborele din stânga are numai 3 schimbări
13
Algoritmi în Parsimonie
-
Ipoteze:
-
Orice element (“state”) [nucleotid, aminoacid] poate fi convertit în orice
alt element
“Costurile” schimbărilor sunt uniforme
Poziţiile sunt independente (se poate calcula nr minim separat pentru
fiecare poziţie)
Algoritmul lui Fitch (1971) – prezentare generală
-
Se traversează arborele de la frunze la rădăcină, determinând setul de
stări posibile (ex nucleotide) pentru fiecare nod intern
Se traversează arborele de la rădăcină la frunze alegând stările
ancestrale pentru nodurile interne
14
Algoritmul Fitch (i)
-
Pasul 1: Stări posibile pentru nodurile interne
Traversarea “post-order” (bottom-up: de la frunze la rădăcină)
Se determină stările Ri ale nodului intern i având copiii j şi k
Nr de schimbări este nr de reuniuni
Ex: (3 reuniuni, 2 intersectii  scor = 3)
15
Algoritmul Fitch (ii)
Pasul 2: Stări posibile pentru nodurile interne
Traversarea “pre-order” (top-down: de la rădăcină la frunze)
-
-
Echivalent “traceback”
Se alege starea rj a nodului intern j
cu părintele i
Obs: Rămâne în nod starea
aleasă după pasul 2! (În ex: scor = 3)
16
Parsimonie ponderată
-
Sankoff & Cedergren (1983)
În loc să se considere toate schimbările echiprobabile, se folosesc
diferite costuri S(a,b) pt diverse schimbări
Primul pas al algoritmului – propagarea costurilor in sus pe arbore
Programare dinamică; subproblemă: să se determine costul Ri(a) pt
subarborele cu rădăcina în i, plasând caracterul a în nodul i
Pentru frunze:
17
Parsimonie ponderată - Formule
18
Parsimonie ponderată - exemplu
• Considerăm doi arbori filogenetici simpli şi matricea (simetrică)
de costuri pentru schimbări de nucleotide
• Să se calculeze:
– Costurile minime ale caracterelor în nodurile interne ale arborilor
– Care arbore va fi preferat prin abordarea parsimonială?
– [OBS: pt arborele din dreapta costul minim este 0.8]
19
Ex de calcul pentru Parsimonie ponderată
(Algoritmul Sankoff)
•
•
•
Caracterul de cost minim pentru nodul 1 este fie “g”, fie “t” (cost=1.0)
Caracterul de cost minim pentru nodul 3 este “g”! (impus de calea costului minim
pentru nodul 1! Exercitiu: verificare cost cu “g”, respectiv “a” în nodul 1)
Abordarea parsimoniei maxime (= cost minim!), va prefera arborele din dreapta, având
costul mai mic (0.8).
20
PAUZA
21