Presentación de PowerPoint - Repositorio Institucional del

Download Report

Transcript Presentación de PowerPoint - Repositorio Institucional del

Capacitación Avanzada en
Repositorios Digitales
Open Data, Open Science, Open Research.
Público Dirigido: Bibliotecarios e Informáticos.
Quito. Ecuador. 13 al 17 de Octubre de 2013.
Gobierno Abierto
El concepto de Gobierno Abierto se sustenta en tres pilares básicos:
•
Transparencia: Un Gobierno transparente fomenta y promueve la rendición de
cuentas de la Administración ante la ciudadanía y proporciona información sobre lo
que está realizando y sobre sus planes de actuación. Cualquier administración
debería permitir el acceso a esta información pública de manera sencilla y clara,
permitiendo de esta manera que los ciudadanos puedan realizar un control de la
acción de gobierno, así como crear valor económico o social a partir de los datos
públicos ofrecidos libremente por la Administración.
•
Colaboración: Un Gobierno colaborativo implica y compromete a los ciudadanos y
demás agentes en el propio trabajo de la Administración. La colaboración supone la
cooperación no sólo con la ciudadanía, sino también con las empresas, las
asociaciones y demás agentes, y permite el trabajo conjunto dentro de la propia
Administración entre sus empleados y con otras Administraciones.
•
Participación: Un Gobierno participativo favorece el derecho de la ciudadanía a
participar activamente en la conformación de políticas públicas y anima a la
Administración a beneficiarse del conocimiento y experiencia de los ciudadanos. Por
tanto, impulsa acciones y orienta actuaciones que aumentan el protagonismo e
implicación de los ciudadanos en asuntos públicos y compromete con mayor
intensidad a las fuerzas políticas con sus conciudadanos.
Gobiernos +
Transparentes
Efectivos
Auditables
Participativos
Datos abiertos.
Qué son?
• Son datos que han sido generados por una fuente en
particular, abarcan un dominio temático o disciplinar en
particular, tienen atributos, dentro de los cuales está la
frecuencia de actualización y cuentan con un
licenciamiento específico indicando las condiciones de
re-utilización de los mismos.
Fuente? Cual fuente?
• La fuente es en muchos de los casos el estado nacional,
provincial, municipal, organizaciones comerciales o en
otros casos es producto del estudio o medición de
particulares.
Atributos
• Especifican como fueron obtenidos Fechas de
obtención, actualización y validez, público involucrado,
metodología (encuesta, datos registrados en forma
obligatoria, datos producidos), uso permitido.
Primarios
Procesables por máquina
Completos
No discriminatorios
No derechos de autor, copyright,
Extraído Res 538/2013
http://opendefinition.org/okd/espanol/
http://opendefinition.org/okd/espanol/
Estado
Academia
Otros actores
liberan diferentes conjuntos de datos
Actores de la Sociedad civil
Orientado a
que el
ciudadano
común pueda
usar esa
información
Procesamiento
Información
Esa información
es consumida a
través de
disposiitivos de
uso corriente PC,
smart-phones,
tablets
Datos abiertos.
Iniciativa privada, que
contando con información de
este tipo pueden ajustar su
oferta, innovar en cuanto a
productos
¿A quien le sirve?¿A quien le importa
que las administraciones liberen
datos?
…En verdad nos debería importar a
todos desde el lugar de una ciudadanía
activa y participativa…
Podríamos preguntarnos: Dado que a
las administraciones les interesa
fortalecer la transparencia y
participación, que medios usan?
A los medios de
comunicación, les
interesa mucho la
liberación de los datos
públicos, a punto tal
que se ha conformado
una nueva “area”
denominada
periodismo basado en
datos o data
journalism
También confluyen
otros actores de la
sociedad civil, un
ejemplo puede ser la
Open Knowledge
Foundation
El estado!!! Si el
objetivo es la
transparencia!!
Concursos
Hackat(h)ones
Algunos condimentos
Hacker…¿En qué momento se convirtió en un mérito ser un
hacker?
En verdad, el término pierde su connotación negativa a partir del ethical hacking:
El objetivo fundamental del Ethical Hacking (hackeo ético) es explotar las
vulnerabilidades existentes en el sistema de "interés" valiéndose de test de intrusión,
que verifican y evalúan la seguridad física y lógica de los sistemas de información,
redes de computadoras, aplicaciones web, bases de datos, servidores, etc. Con la
intención de ganar acceso y "demostrar" que un sistema es vulnerable, esta
información es de gran ayuda a las organizaciones al momento de tomar las medidas
preventivas en contra de posibles ataques malintencionados.
Dicho lo anterior, el servicio de Ethical Hacking consiste en la simulación de posibles
escenarios donde se reproducen ataques de manera controlada, así como actividades
propias de los delincuentes cibernéticos, esta forma de actuar tiene su justificación en
la idea de que:
"Para atrapar a un intruso, primero debes pensar como intruso"
Algunos condimentos
Y qué hace un “hacker ético”?
Si bien no hay una definición oficial, un
hackatón sería una reunión de diferentes
actores pero principalmente desarrolladores que
toman algún objetivo en particular de los
planteados y haciendo uso de los datos públicos
generan diferentes herramientas que presentan
o evidencian la información subyacente. El
objetivo es conformar comunidades, aprender y
superar las aparentes barreras tecnológicas que
los desafíos presentan.
http://www.seguridad.unam.mx/descarga.dsc?arch=2776
Privacidad (encuesta en USA)
“..One organisation to express privacy concerns was IBM, which pointed out the risks
represented by "real-time open data" in its response. Although real time open data can
be highly valuable, the company warned that data on traffic and transport delays and
extreme weather reports could be used maliciously. For this reason, it suggested that
consumers should be issued with licenses to access live data that could be revoked if
necessary…”
“…Some respondents identified new areas where open data would be useful. Network
equipment vendor Cisco wrote that the 'Internet of things' will will become a primary
generator of information that should be considered open data. "The ever-increasing
ability to analyse so-called ‘Big Data’ means that datasets of previously perceived low
value will become well worth collecting and publishing," Cisco wrote…”
“…Pharmaceuticals giant AstraZeneca wrote that opening up medical data would allow it
to "ask more complex questions around [the] safety, effectiveness and health
outcomes of our medicines, [and] enable these questions to be answered earlier in a
medicines lifecycle."
“…Other organisations expressed doubts about the ability of the government's current IT
infrastructure to support its open data ambitions. "A number of respondents argued a
change in ethos in IT delivery at the strategic level is required within government
departments if an enhanced right to data is to be realised," the summary revealed.
The government will lay out its transparency strategy in light of the consultation later this
year.
http://www.information-age.com/technology/information-management/1688463/open-data-consultation-finds-widespreadprivacy-fears
¿Cuál es la unidad de “medida” de
datos abiertos?
Dataset
– Conjunto de datos, con un licenciamiento, contexto
particular de obtención, versionado y soporte
tecnológico para su procesamiento.
Catálogo de datos
– Reunión de diferentes datasets en un soporte
tecnológico que facilita su búsqueda, agrupamiento,
exploración y, claro, descarga.
El fenómeno es global
http://datos.fundacionctic.org/sandbox/catalog/faceted/
¿En qué áreas temáticas hay datasets ?
¿Cuáles son los formatos tecnológicos mas
comunes para los datasets? (Solo algunos ejemplos)
UK (education)
España
Uruguay
Argentina
USA
¿Y las APIs, cuentan? (Claro!)
#Indigestión
¿Qué sucede cuando la
organización libera la información
pública en un formato de
documento, tal como un PDF?
– Claramente presenta un obstáculo
para el procesamiento posterior de
esta información.
<?php
– Existen herramientas para la
extracción de texto de los archivos
PDFs, comúnmente utilizadas en las
implementaciones de repositorios
institucionales o bibliotecas digitales.
Ejemplo más común, xpdf.
$solucion = $this->callAHackaton();
?>
PDF es la peor opción para liberar datos públicos
¿Se sabe cuál es la frecuencia de
actualización del dataset?
#Indigestión
¿Quién cataloga la información que se sube? ¿Qué
criterios / directrices son los que usan para garantizar
un servicio adecuado al usuario/ciudadano?¿Los
schemas de metadatos son suficientemente
descriptivos?
Un ejemplo de indicadores universitarios
(Algunos)
Ejemplos de aplicaciones
¿Es esto una aplicación?
Claro, quién mas interesado en conocer los datos, que quien quiere venderle / exportar a
un país
Rol de la Academia
“…Los avances en TICs están afectando drásticamente al
proceso de investigación académica en todas las áreas.
Con el aumento del poder computacional los investigadores
pueden procesar y compartir cantidades inmensas de
información. Como si de una organización virtual se tratase
(Foster, 2001), la investigación multidisciplinar y en
colaboración tiene lugar en diversas localizaciones
produciendo y utilizando enormes cantidades de datos, lo que
se conoce como e-ciencia;
Mientras que la e-infraestructura es la columna vertebral
tecnológica y de servicios que la soporta. En su conjunto tienen
el potencial de transformar radicalmente las metodologías de
las investigaciones (Hey, 2001)…”
¿Ciencia ficción?¿Como sería una
plataforma de e-science?
“…Cloud computing has evolved in the commercial space to support highly
asynchronous web 2.0 applications.
Scientific computing has traditionally been supported by centralized federally
funded supercomputing centers and grid resources with a focus on bulksynchronous compute and data-intensive applications.
The scientific computing community has shown increasing interest in exploring
cloud computing to serve e-Science applications, with the idea of taking
advantage of some of its features such as customizable environments and ondemand resources.
Magellan, a recently funded cloud computing project is investigating how cloud
computing can serve the needs of mid-range computing and future data-intensive
scientific workloads.
A virtual research environment (VRE) or virtual laboratory is an online system helping
researchers collaborate. Features usually include collaboration support (Web forumsand wikis), document hosting,
and some discipline-specific tools, such as data analysis, visualisation, or simulation management.
In some instances, publication management, and teaching tools such as presentations and slides may be included
. VREs have become important in fields where research is primarily carried out in teams
which span institutions and even countries: the ability to easily share information and research results is valuable.
También desde la Academia
Sumando ingredientes. Big Data?
Big data refers to our ability to collect and
analyze the vast amounts of data we are now
generating in the world.
The ability to harness the ever-expanding
amounts of data is completely transforming our
ability to understand the world and everything
within it.
The advances in analyzing big data allow us to,
for example, decode human DNA in minutes,
find cures for cancer, accurately predict human
behavior, foil terrorist attacks, pinpoint
marketing efforts and prevent diseases.
Muchos ejemplos en la Academia
• Genoma
• Datos climatológicos
• Salud (latidos del corazón de un bebé
24 hs post-parto)
Las 4 V de Big Data:
• Volume – the vast amounts of data
generated every second.
• Velocity – the speed at which new data is
generated and moves around (credit card
fraud detection is a good example where
millions of transactions are checked for
unusual patterns in almost real time)
• Variety – the increasingly different types of
data (from financial data to social media
feeds, from photos to sensor data, from
video capture to voice recordings).
• Veracity – the messiness of the data (just
think of Twitter posts with hash tags,
abbreviations, typos and colloquial speech)
Lasaña para la Academia (mas bien fideos)
Open
Research
(colaboración)
Datos primarios
Modalidad
de producción
Open
Data
Comunicación
tradicional
Open
Source
Valor de
importancia:
Reproducibilidad
de los resultados
Open
Access
Conocimiento cienttífico
Sustentado tecnológicamente
VRE (Virtual Research Environment)
Big Data
Produciendo
cantidades ingentes de
datos
Retomando Open Science
Open
Research
(colaboración)
Open
Source
Open
Data
Open
Access
Open Science
Repositorios (institucionales) de
datos primarios de investigación
• ¿Dónde están situados y quiénes están
administrando los datos que los “output”
de investigación, en las instituciones se
generan?
• ¿Cuáles son las condiciones de
preservación digital de los mismos?
• ¿Cuáles son los costos potenciales de
pérdidas de los mismos?¿Cuantos son los
actores que podrían interpretarlos y
reprocesarlos si se mantienen en silos?
• Las conclusiones a las que arriban las
comunicaciones tradicionales (artículos,
libros, etc) podrían ser reproducidas por
otros grupos de investigación? Abriría esto
un nuevo panorama al peer-review?
Proyecto de Ley Creación
de Repositorios Digitales.
República Argentina
¿Y ahora?
Por suerte,
hay varios ejemplos
para estudiar y aprender
de las experiencias
Un detalle
Algo más que un detalle
http://orcid.org/0000-0003-22990503
…Como se(ría) recomendable la
apertura de los datos y qué tiene para
aportar la web semántica…
http://ec.europa.eu/isa/actions/documents/isa_1.1-how-linkeddata-is-transforming-egovernement_en.pdf
Linked Data is about using the Web to connect related data that wasn't previously linked, or using
the Web to lower the barriers to linking data currently linked using other methods. More
specifically, Wikipedia defines Linked Data as "a term used to describe a recommended best
practice for exposing, sharing, and connecting pieces of data, information, and knowledge on the
Semantic Web using URIs and RDF."
…Como se(ría) recomendable realizar la
apertura de los datos y qué tiene para
aportar la web semántica…
Todo muy lindo, pero para qué sirve?
Interoperabilidad semántica. Relacionar los datasets
Mucho esquema pero sigo sin entender para
qué sirve
(esto está incomible)
Todo se trata de relacionar
Yo puedo habilitar mi portal basado en CKAN con tres datasets
Subsidios
Al
transporte
Indicadores
Educativos
Recaudación
Impositiva
Cada uno de de ellos será un dataset individual sin
relaciones entre sí, dejando en manos de la comunidad
de usuarios hacer las posibles relaciones y
entrecruzamientos.
Todo se trata de relacionar
O puedo trabajar en la liberación de los mismos dejando las relaciones
entre sí y con otros datasets
Geo
Names
Subsidios
Al
transporte
Indicadores
Educativos
Recaudación
Impositiva
Pubmed
Ont
Agrovoc
GeoPol
mapping
En verdad esta inversión de
esfuerzo en realizar la apertura de
los datos de acuerdo a los
principios de Linked Data,
relacionando en los casos posibles
con vocabularios (a través de URIs)
pre existentes dará como
beneficio...
Poder contestar queries tales como...
“...Quiero saber si el incremento obtenido en la
recaudación impositiva de 2013 por exportación de soja
a China ha impactado en la investigación de
fertilizantes ecológicos y si esto ha generado nuevas
vías de comunicación hacia las zonas del centro/oeste
del país...”
Y esto, señoras y señores, no es mas ni menos que la Web
Semántica o Web Of Data
Data Cloud
(o con qué
podríamos
conectar?)
Super desactualizado
Un par de gotas de realidad
Data curation
En verdad me pregunto a esta altura de la charla, si cabe alguna
duda acerca de la necesidad (terrible, urgente, imprescindible)
de un perfil (de RRHH) que sea el “especialista” en datos.
Data Curation
The University of Illinois’ Graduate School of Library and
Information Science defines data curation as “the active
and ongoing management of data thorugh its life cycle of
interest and usefulness to scholarship, science, and
education. Data curation activities enable data discovery
and retrieval, maintain its quality, add value, and
provide for reuse over time, and this new field includes
authentication, archiving, management, preservation,
retrieval, and representation.”
http://www.dcc.ac.uk/resources/curationlifecycle-model
Rol del bibliotecario?
Más del rol del bibliotecario
GeoSpatial Data Curator (University of California, Santa Barbara)
The University of California, Santa Barbara, one of ten campuses of the University of
California system, seeks applications for a GeoSpatial Data Curator (an Associate
Specialist position) to work with faculty, students, researchers, and Library staff to
develop strategies and programs for the collection, description, organization,
normalization, storage, preservation, integration, visualization and mining of
geospatial data within the Library and across the spectrum of programs on
campus. The position will offer its incumbent the chance to help define the emerging
field of geospatial data curation and informatics.
•
Developing and implementing best practices for
describing geospatial data in all collected formats,
including workflows for ingesting geospatial data into the
developing Digital Library repository;
•
Planning, conducting, and overseeing the
conversion of legacy data and metadata to contemporary
formats;
•
Maintaining a high level of expertise in descriptive
metadata standards for geospatial data, including but not
limited to MARC and ISO-191xx;
•
Knowledge of library descriptive practices,
including XML metadata schemes for specific
knowledge domains and MARC cataloging;
•
Hands-on experience implementing and
administering online spatial database applications
under architectures such as ArcSDE, Oracle,
Postgres, MicrosoftSQL and/or MySQL.;
•
Familiarity with linked data expressed as RDF,
and web mapping techniques such as Leaflet,
PolyMaps, and D3
Datathones para datacurators
In today’s technology-driven society, effective access to and use of information is a key enabler for progress. Driven
by the demands for knowledge-based applications and the unprecedented availability of information on the Web, the
study of knowledge capture is of crucial importance. Knowledge capture involves the extraction of useful knowledge
from vast and diverse online sources as well as its acquisition directly from human experts.
http://eprints.soton.ac.uk/271102/1/Texas.pdf
Bibliografía consultada
Resolución 538/13. Jefatura de Gabinete de Ministros. Presidencia de la Nación. República Argentina
http://www.infojus.gov.ar/legislacion/resolucion-nacional-jefatura_de_gabinete_de_ministros-538-2013.htm;
Marmonti, Emiliano. “Lasaña de Data con sopa a la Open”. Seminario web impartido para la organización S
http://www.socialbiblio.com/materiales-de-la-charla-lasana-de-data-en-sopa-a-la-open/
ación original de contenidos realizada por
ede usarse bajo las condiciones especificadas en
citación Avanzada en
positorios Digitales
acio Marmonti [email protected]
GRACIAS!!!!
3 al 17 de Octubre de 2013.