Transcript Document

Всероссийская конференция
«Инфокоммуникационные технологии
в научных исследованиях»
14-16 ноября 2012 года, Таруса
Особенности использования
открытых данных в современных
научных исследованиях и образовании
Радченко Ирина Алексеевна
кандидат технических наук, научный сотрудник
Центра семантических технологий НИУ ВШЭ
http://about.me/Irina.Radchenko
НИУ ВШЭ, Москва, 2012
Открытые данные
во временной перспективе
НИУ ВШЭ, Москва, 2012
2
Открытые наборы научных данных
World Bank
CERN
NASA
НИУ ВШЭ, Москва, 2012
3
Пример использования открытых геоданных
НИУ ВШЭ, Москва, 2012
4
Открытые государственные данные
за рубежом
Цель: повысить открытость, доступность данных для граждан, способствовать
распространению государственных данных
в США:
http://www.data.gov/
http://www.utah.gov/data/
http://data.octo.dc.gov/
https://nycopendata.socrata.com/
http://dwexternal.co.mecklenburg.nc.us/ids/
Nav_Reports.aspx/
http://www.govtrack.us/
http://openstates.org/
в Австралии:
http://gov2.net.au/projects/index.html
в Великобритании:
http://data.gov.uk/
http://data.london.gov.uk/
http://openlylocal.com/councils
http://www.mysociety.org/
в Канаде:
http://www.toronto.ca/open/
https://data.edmonton.ca/
http://data.nanaimo.ca/
http://data.vancouver.ca/
в Швеции:
http://www.opengov.se/data/
НИУ ВШЭ, Москва, 2012
5
Пятизвездочная модель открытых данных
по Тиму Бернерсу-Ли
Источник: http://5stardata.info/, http://www.w3.org/DesignIssues/LinkedData.html
НИУ ВШЭ, Москва, 2012
6
Пятизвездочная модель открытых данных
по Тиму Бернерсу-Ли
★
Данные доступны в Вебе (в любом формате), но подпадают под лицензию
Открытых
Данных
(Open
Data)
—
http://www.nationalarchives.gov.uk/doc/open-government-licence/.
★★
Данные доступны в качестве машинообрабатываемых структурированных
данных (например, в виде Excel-таблицы вместо отсканированного
изображения таблицы).
Данные
соответствуют
двум
звездам,
плюс
представлены
в непроприетарном формате (например, в формате CSV вместо Excelформата).
Данные соответствуют трем звездам, плюс представлены в открытых
стандартах консорциума W3C (RDF и SPARQL), предназначенных для
идентификации данных.
Данные соответствуют четырем звездам, плюс они связаны с другими
данными с учетом контекста их использования.
★★★
★★★★
★★★★★
Источник: http://www.w3.org/DesignIssues/LinkedData.html
НИУ ВШЭ, Москва, 2012
7
Динамика развития Linked Open Data
Темпы нарастания объемов фактов
Количество
наборов LOD
2007
2008
2009
2010
Время
Источник: http://www.w3.org/wiki/SweoIG/TaskForces/CommunityProjects/LinkingOpenData
НИУ ВШЭ, Москва, 2012
8
Пример использования LOD: проект DBpedia
DBpedia — проект,
направленный
на извлечение
структурированной
информации
из данных,
собранных в рамках
проекта Wikipedia.
DBpedia позволяет пользователям запрашивать информацию,
основанную на отношениях и свойствах ресурсов проекта Wikipedia,
в том числе ссылки на соответствующие базы данных.
Источник: http://wiki.dbpedia.org/Applications, http://talis-podcasts.s3.amazonaws.com/twt20080207_TimBL.html
НИУ ВШЭ, Москва, 2012
9
Области использования Linked Open Data
Облако наборов LOD охватывает около 30 миллиардов триплетов и 500 миллионов связей
СМИ
География
Публикации
Созданный
пользователями контент
Государственные данные
Междисциплинарные области
Источник: http://www.w3.org/wiki/SweoIG/TaskForces/CommunityProjects/LinkingOpenData
НИУ ВШЭ, Москва, 2012
Науки о жизни
10
Преимущества использования
Linked Open Data
Связанность данных
Доступность данных
Машиночитаемость данных
НИУ ВШЭ, Москва, 2012
11
Стек Linked Open Data
Источник: http://iradche.livejournal.com/3881.html
НИУ ВШЭ, Москва, 2012
12
Следующий шаг: проект LOD2
Развитие проекта LOD2
в рамках 7 рамочной программы
Европейского союза
Источник: http://lod2.eu/
НИУ ВШЭ, Москва, 2012
13
Стек разработок проекта LOD2
OntoWiki – инструментарий
для работы с моделью
данных RDF.
PoolParty – система
управления тезаурусом и
редактирования контента в
рамках концепции Semantic
Web (включая text mining и
связанные данные).
Sig.ma – инструментарий
для разработки Web of Data.
RDF, RDFa или Microformats
(стандарт Web of Data).
Sig.ma – браузер Semantic
Web.
Comprehensive Knowledge
Archive Network (CKAN) –
каталог для наборов
открытых данных.
D2R Server –
инструментарий для
опубликования
реляционных баз данных в
Semantic Web.
Dbpedia Extraction –
получает
структурированную
информацию из Wikipedia и
делает ее машиночитаемой
и связанной.
MonetDB – СУБД,
поддерживающая
реляционные базы данных,
XML и RDF данные.
SemMF – инструментарий
для расчета схожести
объектов, подвергающихся
связыванию. Представляет
связанные объекты в виде
RDF-графа.
DL-Learner –
инструментарий для
мониторинга машинного
обучения в OWL.
Источник: http://lod2.eu/
НИУ ВШЭ, Москва, 2012
14
Стек разработок проекта LOD2
Silk Framework поддерживает
публикацию RDF-данных из
разнородных
информационных источников.
Использует декларативны язык
Silk - Link Specification Language
(Silk-LSL).
Sindice – инструментарий для
объединения огромных
массивов связанных данных в
единое информационное
пространство связанных
данных.
Sparallax – интерфейс для
реализации SPARQL-запросов,
основанных на Freebase
Parallax.
Triplify обеспечивает перевод
данных в RDF-формат.
OpenLink Virtuoso – база
знаний и платформа
виртуализации,
интегрирующая Data, Services и
Business Processes в рамках
предприятия.
The Web Information Quality
Assessment Framework (WIQA)
– инструментарий для
аналитической обработки и
фильтрации данных,
представляемых в рамках
концепции Semantic Web.
Spatial Semantic Browers –
приложение для просмотра
геоданных в формате RDF.
LIMES – инструментарий для
связывания данных в рамках
концепции Semantic Web.
Источник: http://lod2.eu/
НИУ ВШЭ, Москва, 2012
15
Основные направления инициатив,
направленных на открытие науки
Открытие массивов научных данных
Создание электронных научных хранилищ
и профильных поисковых сервисов
Разработка инструментов
для совместной работы
Создание специализированных социальных
сетей
НИУ ВШЭ, Москва, 2012
16
Примеры использования наборов
открытых данных в науке
Genome Commons (http://genomecommons.org/)
Связанные наборы данных из различных источников:
dbSNP, dbGaP, PharmGKB, GeneTests, OMIM, MutationView
и сотни специализированных баз данных.
TARDIS (http://www.tardis.edu.au/)
Наборы данных по кристаллографии.
НИУ ВШЭ, Москва, 2012
17
Примеры использования наборов
открытых данных в науке
Australian Social Science Data Archive
(http://www.assda.edu.au/)
Council of European Social Science Data Archives
(http://www.cessda.org/)
НИУ ВШЭ, Москва, 2012
18
Примеры использования наборов
открытых данных в науке
National Radio Astronomy Observatory
(https://archive.nrao.edu/archive/advquery.jsp/)
Social Science Data Archive
(http://dataarchives.ss.ucla.edu/)
НИУ ВШЭ, Москва, 2012
19
Электронные научные хранилища
и профильные поисковые сервисы за рубежом
JSTOR
ScienceDirect
CiteSeerX
EBSCO
Scopus
WorldCat
НИУ ВШЭ, Москва, 2012
20
Электронные научные хранилища
и профильные поисковые сервисы за рубежом
Google Books
Web of Science
Open Library
MS Academic
Search
Inspec
arXiv
НИУ ВШЭ, Москва, 2012
21
Электронные научные хранилища и
профильные поисковые сервисы в России
eLibrary
eBdb
VINITI Database
RAS
BookFi.org
Руконт
НИУ ВШЭ, Москва, 2012
22
Разработка инструментов
для совместной работы исследователей
Figshare (http://figshare.com/)предоставляет
исследователям следующие возможности:
• быстрая публикация результатов исследований;
• упрощенная процедура цитирования;
• совместное использование результатов
заинтересованными исследователями.
Лицензия: Creative commons
Digital Science (http://www.digital-science.com/)
предоставляет программные продукты
для совместных научно-исследовательских работ.
НИУ ВШЭ, Москва, 2012
23
Разработка инструментов
для совместной работы исследователей
Tools for the Citizen Scientist
(NASA)
предоставляет программные
продукты
для совместных
научно-исследовательских работ.
НИУ ВШЭ, Москва, 2012
24