Distancia Jukes

Download Report

Transcript Distancia Jukes

Distancia entre dos secuencias: Jukes - Cantor
posición j
k
Longitud de tiempo generacional
Longitud de tiempo generacional
posición j
v1
v2
posición j
s1
Secuencia 1
s2
Secuencia 2
¿Con qué probabilidad puede ocurrir que en la secuencias 1 y 2 observadas aparezcan las bases s 1 y s2 en la
posición j, suponiendo que evolucionaron de una secuencia común, y se desconoce la base en la posición j de la
secuencia original? De otra forma, cuál es la verosimilitud de las bases s 1 y s2 en estas dos secuencias?
Probabilidad de que la
base original sea k
Si la secuencia original tiene m
sitios entonces
4
L( j )    k  pk s1 (v1 )  pk s2 (v2 )
k 1
Probabilidad de mutar desde k
hasta s1 en el tiempo v1
Probabilidad de mutar desde k
hasta s2 en el tiempo v2
m
L   L( j )
j 1
posición j
Para ver como se calcula la verosimilitud
veamos un caso particular
k
Longitud de tiempo generacional
Longitud de tiempo generacional
posición j
v1
v2
posición j
A
Secuencia 1
Secuencia 2
C
L( j )   A p AA (v1 ) p AC (v2 )   C pCA (v1 ) pCC (v2 ) 
 G pGA (v1 ) pGC (v2 )   T pTA (v1 ) pTC (v2 )
Recordemos que
pi i (T )  (1  p)  p   i
pi j (T )  p   j ; j  i
p  1  (1   )T 1  e  T
L( j )   A p AA (v1 ) p AC (v2 )   C pCA (v1 ) pCC (v2 ) 
 G pGA (v1 ) pGC (v2 )   T pTA (v1 ) pTC (v2 )
pi i (T )  (1  p)  p   i
pi j (T )  p   j ; j  i
pi  1  (1   )vi 1  e  vi
L( j )   A (1  p1 )  p1 A p2 C   C p1 A (1  p2 )  p2 C 
  G p1 A p2 C   T p1 A p2 C
L( j)   A ( p1  p2  p1 p2 ) C
L( j)   A C (1  e(v1 v2 ) )
posición j
k
Longitud de tiempo generacional
Longitud de tiempo generacional
posición j
v1
v2
posición j
A
Secuencia 1
Secuencia 2
C
L( j)   A C (1  e(v1 v2 ) )
Este resultado es asombroso, bajo el modelo que hemos aceptado. Nos dice que la
verosimilitud de las dos secuencias depende del tiempo v1 + v2 y no del valor de la
base en el nodo inicial. Dicho de una manera más gráfica: el árbol no tiene raíz (en
el proceso de estimación de los parámetros).
Trabajaremos entonces con las dos secuencias
Supongamos que
i 
1
4
m bases
Secuencia 1
Secuencia 2
s coincidencias
(1  p)  p 
=
4 3p
4
No mutar o mutar pero
elegir la misma base
1
4
p
1
4
Mutar y asumir una base
 4 3p 
L

 4 
s
 p
 
4
m s
Función de verosimilitud
¿Para qué valor de p esta función de verosimilitud es máxima?
 4 3p 
L

 4 
s
 p
 
4
m s
L
4(m  s )
 0  pˆ 
p
3m
Estimador máximo verosímil
pˆ 1  e
 v
4(m  s)
 1  e v
3m
 3 
 3m 

uv  ln
  ln
 4s  m 
 4q  1 
s
q
m
Porcentaje de aciertos
Descripción de la distancia de Jukes-Cantor de manera ingenua…
 3 
 3m 

  v  ln
  ln
 4s  m 
 4q  1 
Número esperado de mutaciones en el tiempo v
Hay 16 posibles mutaciones de las cuales 12 son observables, ¿de acuerdo?
T
A
C
G
Luego la distancia “mutacional” esperada será
3
3  3 
  K
  v  ln
4
4  4q  1 