Alicia López Medina: Tecnología e Interoperabilidad de

Download Report

Transcript Alicia López Medina: Tecnología e Interoperabilidad de

Programa de formación
“De la publicación al acceso abierto a la producción
científica en el área de la salud”
Tecnología e Interoperabilidad de repositorios y su
implementación en proyectos OA relacionados con
la Salud Pública
Instituto de Salud Carlos III
Madrid. Del 28 de febrero al 2 de marzo.
Alicia López Medina UNED
Programa de formación
La Declaración de Berlín, 2003
Programa de formación
• “Con el fin de hacer realidad la visión de una representación
global y accesible del conocimiento, la futura Web tiene que
ser sostenible, interactiva y transparente. El contenido y las
herramientas de software deben ser libremente accesibles y
compatibles”
• “Una versión completa del trabajo […] se deposita […] en por
lo menos un repositorio online, que utilice estándares
técnicos adecuados […] que busque la implementación del
acceso abierto […] interoperabilidad […]”
Declaración de Berlín, 2003
Avanzando la
investigación global de la
salud a través de la
tecnología y compartiendo
los datos y el
conocimiento
Para ser usados: Leer, procesar, visualizar, reutilizar, compartir, analizar, minería de
datos, a través de disciplinas, en entornos de colaboración, en red, en acceso abierto
Un mundo en el que
es más rápido, más
fácil y más barato
encontrar medicinas
y curar
enfermedades.
Representación
interactiva global,
del conocimiento en
la web (operable por
las máquinas)
Repositorios (“vía
verde”) abiertos
(interoperables)
En todas las fases
del ciclo completo
de la investigación
científica
Los contenidos accesibles libremente,
sin restricciones y de forma permanente
a través de Internet
Programa de formación
¿Qué es un repositorio?
• IBM:
Los repositorios proporcionan un medio para organizar y gestionar contenidos
de manera que puedan ser rápida y fácilmente intercambiados y
compartidos
• La definición de Herbert Van de Sompel (uno de los co-creadores del
protocolo OAI-PMH):
Un sistema en red que proporciona servicios referidos a una colección de
objetos digitales
• La biblioteca del Congreso
Una herramienta para almacenar y gestionar información digital en una
forma accesible.
Programa de formación
Programa de formación
Repositorio de Acceso Abierto
(se refiere a una propiedad de sus
contenidos)
Repositorio abierto (interoperable)
(se refiere a una propiedad del propio
sistema)
‘sus contenidos están
accesibles libremente, sin
restricciones y de forma
permanente a través de
Internet para ser usados”
“… que puede intercambiar
procesos, servicios o datos
con otros sistemas de manera
que puedan trabajar juntos de
forma eficiente”
Programa de formación
La interoperabilidad puede realizarse a varios niveles:
 Interoperabilidad de los sistemas
 Interoperabilidad de los datos
 Interoperabilidad de las políticas, governanza.
Programa de formación
Interoperabilidad de los sistemas
Cuando los repositorios pueden intercambiar servicios
y datos entre sí y con otros sistemas
- Protocolo OAI-PMH: exposición de metadatos
- Sword: depósito transparente
- CRIS/CERIF: integración con el contexto de la
investigación
Programa de formación
Open Archive Initiative (OAI)
La interoperabilidad de los repositorios recibe un fuerte impulso con la Open
Archive Initiative.
Sus orígenes están ligados al movimiento de Acceso Abierto . Uno de sus
objetivos es desarrollar e impulsar estándares de interoperabilidad que faciliten
una eficiente búsqueda y visibilidad de las publicaciones científicas distribuidas en
diferentes repositorios, tanto institucionales como temáticos.
Es independiente de cualquier aplicación
La Open Archive Initiative ha creado un protocolo fundamental para conseguir
un nivel básico de interoperabilidad entre los repositorios: el protocolo OAI-PMH
Programa de formación
El protocolo OAI-PMH
(Open Archive Initiative-Protocol for Metadata Harvesting)
Es un protocolo que permite a los repositorios exponer sus metadatos de
manera que otros sistemas puedan recolectarlos y agregarlos para construir
nuevos y más eficientes y útiles servicios que los que podría ofrecer cada
repositorio individualmente.
Proporciona funcionalidades que son esenciales para las propuestas del
movimiento por el Acceso Abierto a las publicaciones científicas
El protocolo OAI es “abierto” en el sentido de que proporciona una interfaz al
proveedor de datos; no significa necesariamente “abierto” en el sentido de que
permite el acceso libre a la información a cualquiera.
Programa de formación
El depósito transparente
No existe una interfaz estándar para transferir
objetos digitales entre repositorios
No se puede depositar en más de un repositorio con
un único ‘click’
No se puede iniciar un proceso de depósito desde
fuera de un sistema de repositorio
Programa de formación
Sword -
Introducción
(Simple Web-services Offering Repository Deposit)
 Un protocolo para depositar objetos digitales en lugares
diferentes
 Proyecto financiado por JISC iniciado en 2007
 Creado por encima del protocolo Atom Publishing Protocol
(APP o ATOMPUB)
Programa de formación
Sword – Casos de uso
Depositar desde una herramienta de Escritorio en línea
Depósito múltiple: en un repositorio institucional, en un repositorio de un
financiador (mandato) y en un repositorio temático con una sola acción
Depósito automático desde una máquina, por ejemplo desde una máquina
de laboratorio
Depositarlo en OJS y en el repositorio
Migración/transferencia, por ejemplo a un servicio de preservación
Depósito mediado, por ejemplo por un bibliotecario, a repositorios
adicionales.
Programa de formación
CRIS
• Gestión del contexto
de la investigación
• CERIF Data Model
(enriquecido
semánticamente)
RI
• Gestión del contenido
de la investigación
Solapamiento de datos, actores, unidades
Peligro de duplicar esfuerzos
Fragmentación, descontextualización de la información
Programa de formación
Programa de formación
La interoperabilidad de los DATOS: la representación
virtual global del conocimiento
DATOS: literatura, datos en
bruto, simulaciones, objetos
culturales… la representación
del conocimiento humano
Abiertos: en “acceso abierto”, manipulables por máquinas,
agnósticos respecto a los dispositivos, en formatos abiertos
Programa de formación
E-ciencia/e-investigación
 Nuevas formas y métodos de investigación
gracias a la aparición de herramientas e infraestructuras
 Data deluge (Hey & Threfethen 2003)
“More digital data will be produce in the next 5 years than in
whole human history” (Australian DEST )
 Uno de los retos que la e-Ciencia pretende abordar es la
integración de datos.
 Data management es un componente crucial de la eInfraestructura
Programa de formación
DATOS
Todas las publicaciones en el campo de las
ciencias empíricas se basan en datos
Conforme la investigación médica se vuelve más compleja y el público espera más y
más de la medicina y la ciencia, el artículo ha dejado de ser el final de la historia. Cada
vez más y con razón, se considera que el artículo científico es como una instantánea
de la investigación, superpuesta por la interpretación de su análisis por los autores y el
resultado fundamental de la investigación son los datos brutos en sí.
Programa de formación
Repositorios de Datos
Las mismas funciones que un repositorio institucional o
temático, pero además…








Tamaños enormes en casos de GRID datasets
Control de Acceso
Visualizaciones
Análisis
Minería de datos
Anotación
Temas legales de creación, acceso y publicación
Preservación
Protein Data Bank (PDB) es el único repositorio en todo el mundo de información
acerca de las estructuras 3D de las grandes moléculas biológicas, como proteínas y
ácidos nucleicos..
Los usuarios pueden realizar búsquedas simples y avanzadas basadas en las
anotaciones correspondientes a la secuencia, estructura y función. Estas moléculas
se visualizan, son descargadas y analizadas por los usuarios que van desde
estudiantes a los científicos especializados.
Programa de formación
“A medida que avanzamos hacia la comprensión de la biología, el acceso a grandes conjuntos de datos de
muchos tipos diferentes se ha convertido en crucial. Sin embargo al mismo tiempo la revolución de alto
rendimiento también amenaza con ahogarnos en los datos. Hay una continua y creciente necesidad de
recopilar, almacenar y proteger toda esta información de manera que permitan su recuperación eficiente y
la explotación. El Instituto Europeo de Bioinformática es uno de los pocos lugares en el mundo que tiene
los recursos y experiencia para cumplir con esta importante tarea.” [About Us]
La propagación mundial de la gripe aviar
H5N1 exigía que los científicos de diferentes
campos de experiencia tuvieran pleno
acceso a la secuencia genética completa, y
a los datos clínicos y epidemiológicos de los
animales y el virus de las cepas humanas.
Global Inititative on Sharing Avian
Influenza Data (GISAID)
•
Los datos se depositan en las tres
bases de datos públicas que
participan en el proyecto (EMBL,
DDBJ and GenBank) tan pronto
como sea posible después del
análisis y validación, en un plazo
máximo de seis meses
"Nuestro entendimiento es que el
progreso científico será más
rápido e innovador si se dispone
de datos fácilmente accesibles a
todos los investigadores en las
comunidades que investigan la
gripe, crean herramientas de
diagnóstico, tratamiento y
prevención "
Ilaria Capua, Berlin 5 Open Access
http://hdl.handle.net/10760/10882
“Compartir los datos conduce al progreso de la
enfermedad de Alzheimer”
•
•
“Diferentes personas, usando
diferentes métodos, en diferentes
áreas, en diferentes lugares,
estaban obteniendo diferentes
resultados, lo cual no es extraño.
Lo que se necesitaba era poner a
trabajar a todos juntos y obtener
un data set común”
Alzheimer’s Disease
Neuroimaging Initiative, , un
proyecto de colaboración para
encontrar los marcadores
biológicos que muestran la
progresión de la enfermedad de
Alzheimer en el cerebro humano.
La clave es compartir todos los
datos, permitiendo la búsqueda de
inmediato - "a disposición de
cualquiera con una computadora
en cualquier parte del mundo”
El esfuerzo ha producido "una
gran cantidad de trabajos
científicos sobre el diagnóstico
precoz de la enfermedad de
Alzheimer utilizando métodos
como la tomografía PET y
pruebas de líquido espinal. Más
de 100 estudios en marcha para
probar medicamentos que puedan
disminuir o detener la
enfermedad. "La colaboración se
ha convertido en un " modelo para
esfuerzos similares contra la
enfermedad de Parkinson. "
Programa de formación
ACCESO ABIERTO A LOS DATOS
Nuevas oportunidades para la investigación
•
“GenBank” y “Protein Structure Database” son dos ejemplos
excepcionalmente existosos: “El éxito del Proyecto Genoma se debe en
gran parte al hecho de que todas las secuencias de DNA publicadas han
estado en acceso abierto durante los últimos 20 años. Si hubiera que haber
obtenido las secuencias mediante el proceso tradicional en que se publican
los trabajos científicos, no habría habido proyecto genoma” (Patrick
Brown 2004).
•
Otro ejemplo es el hecho de que usando los DNA históricos, datos
medioambientales y otros datos, ha sido posible encontrar patrones de
distribución del cólera que de otro modo no hubieran podido ser detectados
Programa de formación
Sobrecarga cognitiva
• “Huntington” en “Entrez Web”
+ 6.000 art. + 450 secuencias de genes + 200 secuencias de proteínas + 55.000 perfiles
de expresión y abundancia molecular
•
Complejidad del cuerpo de conocimiento: relaciones, consecuencias, inferencias
•
La investigación translacional, el esfuerzo de acoplar los resultados de la
investigación básica para aplicaciones clínicas, depende de la capacidad efectiva
de responder a preguntas usando información que abarca múltiples disciplinas y
sistemas.
•
Lo que estamos viendo es los límites de la mente humana en relación con la
información. Tenemos que utilizar estrategias de informática y estrategias de
gestión automática de datos para complementar nuestras mentes y poner todo
eso en un marco que pueden manejar nuestras mentes.
Programa de formación
La oportunidad de Internet…
Programa de formación
La herramientas biocomputacionales, un arma poderosa en la lucha contra las enfermedades
raras
¿Qué son las herramientas biocomputacionales?
Son las herramientas que nos permiten capturar de forma automatizada la información biológica que necesitamos. Para
ello, hemos desarrollado un sistema de integración de valores biológicos procedentes de distintos bancos de datos creando
un lenguaje propio en la web semántica, lo que se ha dado en llamar la web 3.0, de manera que una vez establecidas las
relaciones entre los distintos conceptos biológicos introducidos, el sistema de forma automática es capaz de encontrar
información e incluso de responder a preguntas relativamente complejas.
¿Cómo aplica su grupo toda esta tecnología en la investigación de las enfermedades raras?
Se comienza con la aplicación de una herramienta, que hemos desarrollado, de captura y predicción de estructuras
proteicas. Este paso nos resulta muy útil para facilitar el poder realizar con posterioridad, modelos de proteínas de las que
se conocen mutaciones que han provocado las enfermedades raras que estudiamos.
Una vez concluida esta fase, a partir de la información que hemos obtenido sobre las proteínas que nos interesa estudiar,
podemos llevar acabo, mediante el procesador, los pasos siguientes en los que optimizamos los valores hallados y éste nos
presenta simulaciones de la dinámica molecular. Una dinámica que va a permitir explicar el comportamiento de las
proteínas tanto nativas como las mutadas. A partir de los cuales, podremos de nuevo simular las consecuencias sobre otras
vías metabólicas y estudiar los efectos que esos cambios producen en las propiedades de interacción de la proteína con su
ligando, o buscar y/o diseñar inhibidores o activadores de las reacciones, en definitiva nuevos moduladores de su actividad.
Grupo Bases Moleculares de la Proliferación Celular. Dpto. Biología Molecular y Bioquímica de la Facultad de Ciencias, Unidad 74
del Centro de Investigación Biomédica en Red de Enfermedades Raras (CIBER-ER), del Instituto de Salud Carlos III y al
Ministerio de Ciencia e Innovación.
Programa de formación
La web semántica
• La web semántica es la próxima generación de Internet.
• La idea de la web semántica es hacer el contenido de la web comprensible
para máquinas añadiéndoles una descripción formal y significativa.
• Permite a las comunidades de usuarios colocar contenido comprensible
por la máquina en la web que así puede ser compartido y procesado tanto
por personas como por herramientas automatizadas.
• Es posible la integración y la reutilización de la información en nuevas
aplicaciones imprevisibles y dominios
La visión de la web semántica: “Open Linked Data”
Programa de formación
Los pilares de la web semántica
• Uniform Resource Identifiers (URIs)
• The Web Ontology Language (OWL)
• The Resource Description Framework (RDF)
• XML
Programa de formación
XML
HTML
• Conjunto extensible
• Conjunto de etiquetas
de etiquetas
fijo
• Orientado a contenido • Orientado a la
presentación
• Infraestructura de
datos estándar
• Una única
presentación
• Permite diferentes
presentaciones
Programa de formación
URIS: Identificadores persistentes
Programa de formación
RDF
Triplete: sujeto-predicado-objeto
<URI: algo>
<está relacionado con>
>URI: algo>
Es la sintaxis para “decir” cosas en la web sobre cosas
web, de forma comprensible para la máquina.
Programa de formación
Ontologías
<URI: colágeno>
<es parte de>
>URI: proteínas>
Vocabularios controlados y estructurados que permiten a las
máquinas comprender y razonar
Programa de formación
Ejemplos de ontologías
•
•
•
•
•
•
•
•
•
Basic Formal Ontology (BFO)
Common Anatomy Reference Ontology (CARO)
Environment Ontology (EnvO)
Foundational Model of Anatomy (FMA)
Infectious Disease Ontology (IDO)
Ontology for Biomedical Investigations (OBI)
Ontology for Clinical Investigations (OCI)
Phenotypic Quality Ontology (PATO)
Relation Ontology (RO)
Programa de formación
Muchos tipos de datos en muchos tipos de silos
•
•
•
•
•
•
•
•
•
•
Lab / pathology data
Electronic Health Record data
Clinical trial data
Patient histories
Medical imaging
Microarray data
Protein chip data
Flow cytometry
Mass spec
Genotype / SNP data
Programa de formación
 Las ontologías facilitan la recuperación de la información:
» brain 20
» hindbrain 15
» Rhombomere10
– Interrogación “brain” sin ontología 20
– Interrogación “brain” con ontología 45
 Y permiten a las máquinas “razonar”
Programa de formación
Programa de formación
• El corpus XML de artículos a texto
completo de BioMed Central and PubMed
Central se puede descargar libremente
• BioMed Central ya expone los registros de
todos los artículos en RDF
Programa de formación
El nuevo objeto científico
Programa de formación
Programa de formación
Es necesario hacer explícitas para las máquinas las relaciones
(agregaciones) entre los objetos en la web
U R I-10
S ervice-B
Graph ite O ve rlay Fragm e n t
T yp eU R I-3
U R I-3
Ty
U
pe
T yp
R
I-
2
U R I-9
T
T yp eU R I-4
U R I-2
eU
T yp eU R I-6
U R I-4
U R I-5
1
R IT yp eU R I-5
T yp
yp
eU
R
I-
eU R
I -7
U R I-8
8
U R I-7
U R I-6
U R I-1
LA N L
R e po s i t o r y
F ed ora
arX iv
D ocum ent
Cornell/LANL Pathways Project
Gr id da t a se t
W e b r e so ur c e
Im age O bject
Programa de formación
• Aproximaciones potenciales alternativas:
– OAI-ORE (Object Reuse and Exchange)
– Topic Maps
– Linked Data (RDF)
Programa de formación
OAI-ORE: Open Archive Initiative-Open Reuse and Exchange:
http://www.openarchives.org/ore/
OAI-ORE es un nuevo esfuerzo de interoperabilidad de la OAI
Su objetivo son los Objetos complejos (agregaciones) en la web
Su ámbito es más amplio que el ámbito de los repositorios
Open Archives Initiative Object Reuse and Exchange (OAI-ORE) define
estándares para la descripción e intercambio de agregaciones de los recursos
en la web. El objetivo de estos estándares es exponer el contenido de estas
agregaciones a aplicaciones que soportan la creación, el depósito, intercambio
visualización, reutilización y preservación de contenidos digitales.
Módulo 9 – Repositorios de Acceso Abierto: tecnologías, estándares y plataformas
Programa de formación
Semantic Web for Health Care and Life Sciences Interest Group
La misión de HLC es desarrollar, promover y apoyar el uso de tecnologías de
Web Semántica para
 Ciencias Biológicas
 Medicina Traslacional
 Cuidado de la salud
Estas áreas pueden obtener enormes beneficios mediante la adopción de
tecnologías de Web Semántica, ya que dependen de la interoperabilidad
de la información de diferentes ámbitos y procesos para apoyar las
decisiones eficientes
Programa de formación
W3CHCLS Grupos de trabajo
 BioRDF – federación de bases de datos de
neurociencias
 Interoperabilidad de Observaciones clínicas
 Linking Open Drug Data
 Ontología de Medicina Translacional Ontology –
 Discurso Científico
Programa de formación
Linking Open Drug Data
(LODD)
Relacionar diferentes fuentes de
datos de medicamentos para
responder a interesantes
preguntas de carácter
científico y empresarial
Programa de formación
El discurso científico estructurado
Parece esencial que, si queremos permitir que los
ordenadores ayuden a los científicos a dar sentido a
las vastas colecciones de trabajos de investigación,
tenemos que desarrollar formas de identificar los
principales
componentes
argumentales,
sus
conexiones y las conexiones a sus pruebas
correspondientes a través del espacio y el tiempo, y
presentar estos elementos conectados redes de
conocimiento a los usuarios.
Programa de formación
Programa de formación
Neurocommons.org
• Un proyecto de ScienceCommons
• Trabajando con artículos de acceso abierto de BioMed Central y PLoS
• En colaboración con los principales hospitales de investigación,
infraestructura de neurociencia, W3HCLSIG, editoriales de Acceso Abierto
• Un intento de definir las mejores prácticas / estándares para el
enriquecimiento semántico de los artículos: grafo (RDF) de dominio
público de los hechos neurológicos construido sobre el Acceso Abierto y
bases de datos públicas.
• Tanto la minería de datos como herramientas mejoradas de edición
tienen un papel en el proyecto.
• Construyendo sobre los beneficios del Acceso Abierto
Programa de formación
Muchas gracias por vuestra
atención
[email protected]