bioinf12 - medinfo.umft.ro

Download Report

Transcript bioinf12 - medinfo.umft.ro

UNIVERSITATEA
POLITEHNICA
TIMIŞOARA
MASTER SIIS
Sisteme Informatice în Îngrijirea
Sănătății
1
www.medinfo.umft.ro/dim/
bioinformatica.htm
2
BIOINFORMATICA
Prof Dr George I Mihalaş
UMF Victor Babeş
3
CURSUL 12
4
ANALIZA FILOGENETICA
5
Planul cursului
1. Introducere: terminologie, tipuri, aplicaţii
2. Număr de arbori
3. Metode de construcţie:
–
Metode bazate pe distanţe
•
•
•
–
Algoritmul UPGMA
Ceasul molecular, date ultrametrice
Metoda Neighbor Joining
Metode bazate pe parsimonie
•
•
Algoritmul lui Fitch
Parsimonie ponderată
6
Noţiuni generale (i)
1. Definiţie: un arbore (tree) este un graf aciclic,
nedirecţionat
2. Structura unui arbore:
–
–
–
–
Frunze (leaves) – obiecte (ex secvenţe de proteine, gene) =
noduri exterioare, de grad “1”; sunt notate: 1, …, n
Noduri (nodes) – intersecţie de ramuri; se numerotează de
la n+1 în sus
Ramuri – legături între noduri; au deseori o “lungime”
calculată după diverse criterii
OBS: taxon (pl: taxa) – frunze care reprezintă specii
7
Noţiuni generale (ii)
3. Istoric: Zuckerkandl şi Pauling (1960)
4. Tipuri:
–
–
–
Fără rădăcină (unrooted trees) – specifică relaţii
Cu rădăcină (rooted trees) – “rădăcina” este ultima ramură
de la ultimul nod; se stabileşte o ierarhie (dendrogramă);
calea de la rădăcină la un nod reprezintă o cale de evoluţie
Topologia arborelui – dacă ramurilor nu le sunt asociate
“lungimi”
5. Inferenţă filogenetică – stabilirea unui arbore filogenetic
care caracterizează linia evolutivă între specii sau gene
8
Noţiuni generale (iii)
6. Utilitate / motivaţie
• a înţelege relaţiile evolutive a speciilor
• a înţelege cum au evoluat diverse funcţii
• informaţii pentru alinierea multiplă
• a identifica ce este mai important / conservat in
unele clase de secvenţe
9
Ex: Arbore al genelor: Globine
10
Ex: Arbore al speciilor: Babuinii
11
Arbori cu şi fără rădăcină
12
Numărul de arbori posibili
• Nr. Arbori Fără Rădăcină
• Pornim de la arbore cu 3
frunze și incrementăm
Nr.
frunze
Nr.
noduri
Nr.
ramuri
Nr.
arbori
3
4
5
…
n
4
6
8
…
2n  2
3
5
7
…
2n  3
1
3×5 3×5×7 …
(2n  5)!!
13
Numărul de arbori posibili
• Nr. Arbori cu Rădăcină
• Pornim de la arbore cu 3 frunze și incrementăm
14
Numărul de arbori posibili
15
Date pentru construcţia arborilor
1. Distanţe – măsuri / estimări ale distanţelor
între specii sau între gene
2. Caractere – aspecte morfologice (ex nr de
picioare), secvenţe de ADN sau proteine
3. Ordinea genelor – după ordinea lineară a
genelor ortoloage in genomurile date
16
Metode de construcţie a
arborilor filogenetici
1. Metoda grupării – bazată pe distanţe – arborele
explică distanţele evolutive estimate
2. Parsimonie – arborele care necesită numărul
minim de “schimbări” pentru a explica datele
3. Asemănarea maximă – arborele care
maximizează asemănarea datelor
(neighbour joining)
17
Comparație metode
18
Abordări bazate pe distanţe
Punerea problemei: fiind dată o matrice M a distanţelor Mij între
taxonii i şi j, de dimensiune n × n (n = nr de taxoni / frunze),
să se construiască un arbore cu ramuri ponderate (“edgeweighted tree”) Mij.
19
• Proprietăţile
distanţelor
• Date Ultrametrice:
– Ipoteza Ceas ului Molecular: se presupune că
divergenţa secvenţelor apare cu aceeaşi rată în
orice punct din arbore – date ultrametrice
– Ipoteza nu este în general valabilă – procesul de
selecţie variază în diverse perioade de timp, variază
cu organismul, genele unui organism sau regiunile
unei gene
20
Metoda UPGMA
Unweighted Pair Group Method using
Arithmetic Averages
Ideea de bază:
- se compun doi taxoni / clustere, formând un (nou) cluster
- se creează un nou nod pentru noul cluster
- distanţa între două clustere (distanţa între perechi de taxoni
din fiecare cluster):
21
Algoritmul UPGMA
Se consideră fiecare taxon ca un cluster
Se defineşte o frunză pentru fiecare taxon; se plasează la înălţimea
“0” pe scara distanţelor
Când sunt mai mult de două clustere:
-
-
-
Se aleg două clustere, i şi j, pentru care distanţa dij este minimă
-
Se defineşte un nou cluster Ck = Ci U Cj
Se defineşe un nod k părinte al i şi j; se plasează la înălţimea dij / 2
Se înlocuiesc clusterele i şi j cu k
Se calculează distanţa între k şi celelalte clustere
Ultimele două clustere i şi j se unesc cu o rădăcină la înălţimea dij / 2
22
Metoda UPMGA
Unweighted Pair Group Method with
Arithmetic mean
23
Ex.2
24
Metoda Neighbor Joining
Deosebiri faţă de UPGMA:
- nu aplică ipoteza ceasului molecular
- se creează un arbore fără rădăcină
- presupune “aditivitate”: distanţa între perechi de frunze este
suma lungimilor ramurilor care le conectează
Algoritmul – iterativ, asemănător cu UPGMA, cu unele diferenţe
(nu trebuie început cu distanţa minimă, sunt alte formule de
calcul).
25
PAUZA
26