ANALISIS_CONFORMACIONAL

Download Report

Transcript ANALISIS_CONFORMACIONAL

ANALISIS CONFORMACIONAL
Def.: estudio de las conformaciones moleculares y su influencia sobre las propiedades
Desarrollo
reciente
Barton (1950)
Apogeo de NMR, EI, X-ray
Conformaciones  arreglos atómicos espaciales interconvertibles por rotación
alrededor de enlaces simples
conformacional - identificación de las conformaciones “preferidas” por
las moléculas
Búsqueda
en general, mínimos energéticos
La búsqueda conformacional requiere algoritmos de generación de
estructuras iniciales a optimizar
Análisis
Pero
conformacional ≠ simulación (MD o MC)
…. MD y MC se utilizan en estrategias de búsqueda conformacional
Es
imposible encontrar todos los mínimos energéticos de una molécula - búsqueda del
mínimo global?
Métodos conformacionales
1) Sistemáticos
2) Construcción de modelos
3) Aleatorios
4) Algortimos genéticos
5) Geometría por distancia (distance geometry)
6) Dinámica molecular
Modelos
mecánicos pueden dar buenas aproximaciones en algunos casos!
1) Métodos sistemáticos
Exploran
el espacio conformacional realizando cambios regulares y predecibles sobre
la estructura molecular
Búsqueda en grilla (grid search)
Procedimiento:
1) Identificación de ángulos torsionales rotables
2) Rotación sistemática de cada torsional usando un incremento fijo
3) Minimización de energía de cada conformación
Ejemplo:
análisis conformacional del dipéptido Ala-Ala
Dos diedros a modificar (f y y)
Gráfico de Ramachandran
Los
aa en proteínas adoptan valores restringidos de f y y
Muchas conformaciones convergen al mismo mínimo
Inconveniente:
Cantidad
“combinatorial explotion”
de conformaciones aumenta exponencialmente con torsionales
Nconf 
N
360
 
i 1
i
i = incremento en cada torsional
N = número de torsionales
Árboles de búsqueda
Se
eliminan conf. previamente a la minimización energética
Árbol
nodos (estados)
bordes (conectan nodos)
Nodos:
raíz, terminales, hijos y objetivos
Generación
Algoritmo
Desecho
de nuevas conformaciones - backtracking
“depth-first search”
de conformaciones
-control de energía
-control geométrico (conformaciones “pruned”)
Los sistemas cíclicos son problemáticos
Se
rompe el anillo para obtener una molécula pseudo-cíclica
Se
realizan controles adicionales (Ej: distancia entre átomos de cierre del anillo)
Criterios
a establecer en métodos sistemáticos
-tamaño de la grilla
-distancia no enlazante
-cierre de anillo
2) Construcción de modelos
Uso
Se
de bloques de construcción (building blocks)
unen los bloques tridimensionales para formar las conf.
Más
eficiente - menos combinaciones de fragmentos
Especificación
Fuentes
automática o manual para unión de fragmentos
de fragmentos:
-base de datos estructurales
-otros métodos de análisis conformacional
Métodos aleatorios
Enfoque
opuesto al sistemático
Generación
de conformaciones al azar:
-cambio de coordenadas cartesianas
-cambio en diedros de torsión
Selección
de conformaciones en cada paso:
-a partir de la anterior
-aplicación de criterio Monte Carlo
-a partir de la conformación de menor energía
Cambios
parciales o globales de diedros y coordenadas
No existe un punto de finalización concreto  finaliza al no obtener nuevas estructuras
Corolario: se obtiene una misma estructura muchas veces
Métodos aleatorios y sistemáticos
4) Algoritmos genéticos
Métodos
Cada
basados en biología evolutiva
miembro de la población se codifica por un “cromosoma”
conformación
La
arreglo lineal de bits
secuencia de bits (gen) codifica el valor de los torsionales
Asignación
de fitness para cada miembro
Algoritmo
1) Seteo de bits al azar en cada cromosoma (población inicial)
2) Decodificación de bits para obtener ángulos torsionales
3) Cálculo de fitness (energía interna)
4) Ciclo: generación de nueva población con operadores:
a) reproducción
b) entrecruzamiento (cross over)
c) mutación

Algoritmos sesgados  se conservan miembros con más fitness
5) Geometría por distancia

Descripción de conformaciones por distancias interatómicas (matrices aleatorias)
Sólo
algunas combinaciones de distancias son válidas
Procedimiento:
1) Cálculo de matriz con valores máximos y mínimos de distancias
interatómicas
2) Asignación de valores de distancia al azar dentro de los límites
3) Conversión de matriz en coordenadas cartesianas (o internas)
4) Minimización de energía
Criterios
para definir los límites de distancias
-datos cristalográficos o NMR (NOESY,COSY)
-átomos involucrados
-reglas geométricas
-radios de van der waals
Triangle smoothing (“suavizamiento triangular”)
Procedimiento

para refinar el set inicial de topes de distancias
Dos restricciones:
a) uac <= uab + ubc
b) lac >= lab –ubc
uac  distancia máx. A-C
uab  distancia máx. A-B
ubc  distancia máx. B-C
lac  distancia mín. A-C
lab  distancia mín A-B
ubc  distancia máx B-C
Embedding (“embebición”)
Transformación
de matriz de distancias en coordenadas espaciales
Gij  i .j
Gij  (dio2  djo2  dij 2) / 2
Gij = matriz métrica
i = vector desde origen hasta i
j = vector desde origen hasta j
dxo = distancia entre origen y átomo x
dij = distancia entre átomo i y j

El origen de coordenadas es el centro de la molécula:
dio
La
2
1

N
N
d
ij
j 1
2

1
N
j 1
d
2
jk
N
2
j  2 k 1
matriz G (simétrica) se puede representar como:
G  V L2 VT
diagonal de L2  valores propios de G
columnas de V  vectores propios de G
Las
coordenadas atómicas se calculan como:
G  X XT
Se
deduce que:
X  VL
Se
multiplica la raíz cuadrada de los eigen values por los eigen vectors
Funciones de penalización
2


2
2
d
ij
u
ij )
(





E    0

i
j i 
2 
2
2

(li j  dij ) 

2


2
2
2
d
ij  uij ) / uij )
((




E    0

i
j i 
2 
2
2
2

l
ij  dij ) / dij ) 
((


Otros
dij > uij
lij <= dij <= uij
dij < lij
dij > uij
lij <= dij <= uij
dij < lij
tipos de restricciones:
-centros quirales
-grupos en el plano
6) Métodos de simulación
-Dinámica Molecular (MD) - (simulated annealing)
-Monte Carlo (MC)
Simulated annealing (SA)
1) Corridas MD a altas temperaturas (>2500° K)
2) Enfriamiento lento hasta 0 ° K luego del equilibrio
3) Poblamiento de estados de menor energía según distribución de Boltzmann
4) Refinación geométrica (minimización de energía)
Teóricamente se obtiene el mínimo absoluto
En
la práctica, se obtienen diferentes mínimos más representativos del
espacio configuracional
Refinamiento
de estructuras cristalográficas
combinación de SA y MD restringida
Refinamiento de Cristalografía de rayos X
Resolución
Amplitud
Relación
de estructuras moleculares a partir de patrones de difracción
de radiación difractada proporcional a la densidad electrónica
entre densidad electrónica y el factor de estructura F
F  F e i
fase
amplitud
en cristalografía interesa derivar la distribución electrónica a partir del factor de
estructura
Problema
Para
central = determinación de las fases
proteínas - reemplazo isomórfico múltiple:
-Preparación de cristales en diferentes soluciones con metales pesados:
mercurio, platino, plata.
-Comparación de patrones de difracción de cristales nativos y derivados
de átomos pesados
Estimación de las fases
Se
ajusta un modelo estructural al mapa de densidad electrónica
Refinamiento
Se
del modelo  obtención de la mejor estructura
comparan las amplitudes de F calculadas y observadas (fact. R)
R 

Fobs  Fcalc

Fobs
Se
alternan métodos de cuadrados mínimos con inspección visual - proceso
complejo y trabajoso
Para
facilitar el proceso - uso de Mecánica Molecular:
-Minimización de energía
-MD restringida (SA)
Etot  V (r N )  Esf
término de restricción
Esf  S  Fobs  Fcalc 
2
S = factor de escala
Qué método de búsqueda conformacional usar?
No
hay ningún método óptimo en todos los aspectos
Ejemplos:
-explosión combinatoria en búsquedas sistemáticas
-ausencia de punto final en búsquedas aleatorias
-costo computacional (geometría por distancia y MD)
En general, ningún método será capaz de encontrar todas las conformaciones de mínima
energía de una molécula
Bases de datos estructurales (BDE)
Almacenan
Tres
información cristalográfica (y NMR) para un gran número de moléculas.
grandes bases:
-PDB (Protein Data Bank)
-CSD (Cambridge Structural Database)
-ISD (Inorganic Structural Database)
Aplicaciones de BDE
CSD
Comprensión
Estudio
de factores que influencian las conformaciones
de formas de interacción entre moléculas
Búsqueda
de subestructuras en diferentes moléculas
PDB
Comprensión
Obtención
de principios determinantes del plegamiento
de fragmentos pequeños para ajuste de modelos
Limitaciones
Sólo
moléculas cristalizables
Influencia
de fuerzas de empaquetamiento en cristales (mol. peq.)
Ajuste molecular (Molecular Fitting)
Orientación
de dos o más conformaciones para superponer óptimamente los grupos
funcionales de las mismas
Búsqueda
conformacional - control de conf. duplicadas
Medida del ajuste (fit)
N
d 2
i
RMSD 
Interesan
N = número de átomos
i 1
N
di = distancia de átomo i en ambas estructuras
las conformaciones que verifican min(RMSD)
Variantes de fitting
-Iterativo
-Directo
-Ajuste flexible (template forcing)
-Rotación alrededor de enlaces simples
-Restrained MD
Algoritmos de clustering y reconocimiento de patrones
Selección
de conformaciones “representativas”
Análisis de cluster (cluster analysis)
Requiere
medir similitud entre pares de conformaciones:
RMSD

Distancia de ángulos torsionales:

-Euclídea (camino en línea recta)
dij 
Ntor
 (w
m, i
 wm , j )
wm,i =diedro m en conf. i
2
m 1
Ntor =cant. diedros
-Manhattan (camino en grilla)
dij 
Ntor

m 1
wm , i  wm ,
j
Métodos de vinculación (linkage methods)
Procedimiento
1) Cálculo de distancia entre conformaciones
(Existen tantos clusters como conformaciones)
2) Reducción en 1 del número de clusters (se unen los dos clusters más
cercanos en uno sólo)
3) Repetición del paso 2 hasta el final
4) Elección de conf. representativa de cada cluster
Criterios
de finalización:
-distancia entre los dos clusters más cercanos
-mínimo número de clusters
-reducción a un único cluster
Tipos
de métodos de vinculación:
-Simple (single)
-Promedio (average)
-Completo (complete)
algoritmos jerárquicos
Algoritmo Jarvis-Patrick (no jerárquico)
Enfoque
Dos
de vecinos más cercanos
conformaciones en el mismo cluster 
-Cada una está en la lista de vecinos (m) más cercanos de la otra
-Poseen p (p<m) vecinos más cercanos en común
Algoritmo k-means (no jerárquico)
Deben
de conocerse a priori los k grupos en los cuales se separarán las medidas
Procedimiento:
1) Definir la cantidad de clusters a generar (k)
2) Dividir al azar las conformaciones en k grupos iniciales (k medias al
azar)
3) Calcular para cada grupo el centroide como el vector que representa la
medida promedio del grupo
4) Reasignar las conformaciones a los centroides más próximos (según
criterio de distancia)
5) Repetir los pasos 3 y 4 hasta que los centroides sean estables
Algoritmo k-means (no jerárquico)
1)
3)
2)
Iter (2-3)
Análisis de componentes principales
Útiles
para el análisis de clusters
Reducen
la dimensionalidad de un set de datos
Concepto
de componente principal (PC)  combinación lineal de variables:
pi 
v
c
i,
j 1
xj
j
pi = componente principal iésimo
cij = coeficiente de variable xj
n = cantidad de variables
Los
datos tienen la máxima dispersión a lo largo del 1er CP
1er CP maximiza la varianza en los datos
Variación
total de los datos - todo el conjunto de PCs
Generalmente,
Cálculo
son suficiente los dos o tres primeros PCs
de PCs:
Z = DTD
Z = matriz varianza-covarianza
D = matriz (v,s)
s = cant. de valores
v = cant. de variables
Con
los vectores propios de Z se calculan los PCs
Valor
propio mayor - primer componente principal, etc.
Contribución
del PC iésimo a la varianza total:
 i /  j 1 j
v
Ejemplo:
PC1
conformaciones de anillo de ribosa (5 torsionales)
+ PC2 = 99% de varianza de datos