Biología Computacional / Bioinformática Laboratorio Introducción / Bases de Datos. ¿Qué es la Bioinformática? La bioinformática es el campo de la ciencia en donde.

Download Report

Transcript Biología Computacional / Bioinformática Laboratorio Introducción / Bases de Datos. ¿Qué es la Bioinformática? La bioinformática es el campo de la ciencia en donde.

Biología Computacional / Bioinformática
Laboratorio
Introducción / Bases de Datos.
¿Qué es la Bioinformática?
La bioinformática es el campo de la
ciencia en donde la biología, la ciencia
de la computación, y la tecnología de
información se funden en una disciplina.
El objetivo principal es el descubrimiento
de nuevos indicios biológicos, como
también crear una perspectiva global de
la cual poder unificar principios de la
biología.
(NCBI Education)
Subdisciplinas
■
■
■
Desarrollo de nuevos algoritmos que
permitan determinar relaciones en muestras
de gran tamaño.
Análisis e interpretación de varios tipos de
datos, incluyendo secuencias de nucleótidos
y aminoácidos, dominio de proteínas, y
estructuras de proteínas.
Desarrollo e implementación de
herramientas para permitir un acceso
eficiente a la información.
Herramientas.
Problema Biológico
■ Secuenciación.
■ Captura de genes.
■ Localización
subcelular de
proteínas.
■ Comparación de
proteínas.
Solución Computacional
■ Base de datos.
■ Planillas de cálculo.
■ Alineamiento.
■ Reconocimiento de
patrones.
■ Datamining.
■ Especializadas.
Bases de datos
¿Qué es una base de datos?
Una Base de Datos es un conjunto de
datos relacionados y almacenados para
un proposito particular con una
estructura lógica.
Base de Datos = Estructura + Datos.
Ejemplo: Un biblioteca.
¿Cómo se organizan los datos?
La organización depende de las
consultas que se piensan realizar sobre
la base de datos.
De las consultas se concluye los
conjuntos, relaciones y lógicas que
existen entre los datos.
Ejemplo: Biblioteca II
Consulta...
AUTOR
Lista de Autores
TÍTULO
Lista de Títulos
TEMA
Temas x Estantes
¿Cómo mantener una base de datos?
El motor de base de datos es el software
encargado de mantener consistencia en los
datos y responder las consultas a realizar.
El software debe tener las siguientes
herramientas para ser declarado como un
motor de base de datos:
■ Lenguaje de Definición de Estructura.
■ Lenguaje de Modificación de Datos.
■ Lenguaje de Consultas.
Ejemplo: Biblioteca III
El Bibliotecario...
¿Cómo se crea una base de datos?
La creación de la base de datos excede los
objetivos de la materia, pero se darán las pautas
más importantes para su creación.
■
Consultas y operaciones:
–
■
El diseño debe ser formal, no debe haber
ambigüedades.
–
■
■
¿Qué voy a consultar? ¿Qué necesito almacenar?
Existen lenguajes gráficos que ayudan al diseño.
¡Un mal diseño puede complicar la consistencia
de los datos! Aún siendo formal...
¡Tiempo!
Operaciones
■
■
■
Las operaciones básicas en una base de datos
son la consulta, la inserción, modificación y
eliminación de datos.
Quienes realizan estas operaciones son los
usuarios. Los usuarios no solo son personas sino
también procesos o sistemas externos.
Existen dos clases de bases de datos según sus
operaciones más comunes: operacionales y
analíticas.
Base de Datos por Consulta
■
Base de datos operacionales.
–
–
–
–
■
Continua inserción de datos.
Los datos provienen de un proceso automático o
repetitivo, pueden traer error.
Los datos están actualizados.
Objetivo: Almacenar datos.
Bases de datos analíticas
–
–
–
–
Optimizada para consultas.
Los datos están confirmados.
Los datos no están actualizados.
Objetivo: Buscar información.
Diseño formal
Los motores de base de datos necesitan
formalidad para crear las estructuras
físicas necesarias para mantener la
base de datos.
Las herramientas que se usan para
simplificar el diseño son los lenguajes
gráficos formales como UML y ER.
Diagramas ER y UML
¿Algo más?
El diseño esta relacionado al motor de
base de datos. Las bases de datos
fueron evolucionando durante los
últimos años dejando varios modelos
que permiten representar la
organización de los datos, por supuesto,
uno más restrictivo que otro.
Modelos de Base de datos.
■
■
■
■
■
Planas: No se verifica la consistencia de los
datos. (¡No es una base de datos!)
Jerárquicas: Fichas, Jerarquía.
Red: Registro, Campo, Conjunto,
Relacionales: Tablas, Registros, Atributos y
Relaciones.
Objetos: Clases, Objetos y Mensajes.
Otras necesidades...
No solo de las operaciones depende el
diseño. También de otros requerimientos
y funcionalidades.
Muchas veces depende de los recursos
que se tienen.
Como consecuencia fue necesario
clasificar las bases de datos según la
distribución de física de los datos.
Organización Física
■
Centralizada.
–
–
■
Existe un único repositorio responsable de los
datos.
La consulta se realiza sobre el repositorio.
Distribuida.
–
–
–
–
Existen varios respositorios responsables de los
datos.
La consulta se realiza en cualquiera de los
repositorios.
El usuario ve un único repositorio.
Existe un proceso de sincronización de los
Organización Física
■
Mixta.
–
–
–
–
–
Existen varios repositorios responsables de los
datos.
La consulta se realiza en el repositorio
adecuado.
La interconexión entre los repositorios pueden
ser visible o invisible.
Existen procesos independientes a los
repositorios que realizan la sincronización.
La forma de distribución y almacenamiento de
datos es eterogenea.
¿Qué se puede almacenar?
La pregunta correcta es...
¿Qué queremos almacenar?
Datos Biológicos
■
Bibliografía.
■
Nucleótidos.
■
Proteínas.
■
Genoma.
■
Estructuras.
■
Alineamientos.
■
Organismos.
■
Genes.
■
■
■
Resultados de
Microarrays.
Mutaciones.
Etc.
Características
■
Alta complejidad.
■
Gran cantidad y variabilidad de la información.
■
Múltiples origenes de la información.
■
Múltiples interpretaciones.
■
Consultas impredecibles.
Nueva Clasificación
Las bases de datos biológicas tienen
características especiales que
promovieron una nueva clasificación
para poder identificar la calidad de los
datos almacenados.
Clases de Bases de Datos Biológicas
■
x Confianza en los datos.
–
–
■
Curadas: Los datos están confirmados biológicamente.
Aún así esto no significa que puedan variar.
No curadas: Los datos no fueron confirmados. Son
obtenidos de procesos automáticos o son resultados
parciales.
x Redundancia en los datos.
–
–
Redundantes: No se puede confirmar que los datos
existentes no se encuentran repetidos varias veces.
No redundantes: Los datos no están repetidos bajo un
criterio... y las ¿secuencias repetidas?
El problema
■
Nadie conoce cual es la mejor implementación.
■
No existe un estándar (¿SQL?).
■
La actualización de los recursos es lenta con
respecto a la cantidad de datos.
■
No todos los laboratorios tienen la misma calidad
de recursos.
■
La consulta a los datos varia según el objeto de
estudio.
■
Problemas políticos.
Solución actual
■
■
■
■
■
Especificar las bases de datos.
Relacionar las bases de datos a través de
Internet: Enlaces!
Centralizar en grandes centros de bioinformática
con recursos suficientes.
Permitir acceso a los grandes centros vía Internet.
Mantenimiento de los datos a través de sistemas
de versiones.
Ejemplo: Bases de Datos Biológicas
Entrez
+
¡De todo!
Pero separado...
¿Por donde empezar?
ExPASy
+
Confiable.
Todo separado.
Pocos datos.
AceDB
+
¡De todo!
Especializado a
un genoma.
GenBank
+
Todas las secuencias.
No es confiable.
Nuevos problemas.
■
■
■
■
■
■
Una consulta seria implica 'navegar' por varias
bases de datos diferentes.
Los resultados no siempre son satisfactorios.
Las herramientas están especializadas a las
distintas bases de datos.
Es muy fácil marearse...
¿Dónde empezar la consulta?
¿Qué tan confiable es lo encontrado?
Se necesitan una solución
■
■
■
Las soluciones tienen que ser integradoras y
accesibles, de bajo costo y políticamente
aceptable.
Los grandes centros de bioinformática quieren
imponer su solución integradora, siendo la
mayoría gratuitas y multiplataformas. Esto limita la
fusión de los datos acotando las consultas.
Es por ello que surgieron soluciones puntuales
para integrar las herramientas existentes.
Solución I: Scripts
Los lenguajes de scripts permiten simplificar tareas
automatizables y tediosas. Existen extensiones
para procesos comunes para la Bioinformática.
■ Ventajas
–
–
■
Desventajas
–
■
Sencillos y rápidos de implementar.
Permiten intercomunicar base de datos.
Saber programación.
Ejemplos
–
BioPerl, BioPython, etc.
Solución II: XML
■
■
■
■
■
■
Lenguaje de representación y organización de
datos.
Flexible.
Fácil de interpretar y consultar.
Cualquier sistema que entiende XML puede
interpretar los datos.
Pensado para intercambiar datos por Internet.
HTML es primo mayor de XML.
¿El futuro?
La integración de los datos...
BioGrid, posible solución?
■
■
■
■
■
■
Base de datos de objetos organizada
jerárquicamente.
Información distribuida.
Independencia en la administración.
Lenguaje de consulta muy amplio.
Tecnología de Directorios: 10 años de
experiencia.
Automáticamente integrable con otras grillas
de información científica.
Problemas del proyecto BioGrid
■
Concepto nuevo en Bioinformática.
–
–
–
■
Ignorancia.
En fase de prueba.
Necesita implementar consultas específica de la
bioinformática.
Debe ser aceptado políticamente.
–
–
–
La solución es integradora... nadie se puede imponer.
La organización de los datos es diferente.
Las herramientas deben cambiar de conceptos.
Lo más parecido... AceDB.
¿Preguntas?
Fin de la presentación...
Ir a los fierros...