Transcript Document
Всероссийская конференция «Инфокоммуникационные технологии в научных исследованиях» 14-16 ноября 2012 года, Таруса Особенности использования открытых данных в современных научных исследованиях и образовании Радченко Ирина Алексеевна кандидат технических наук, научный сотрудник Центра семантических технологий НИУ ВШЭ http://about.me/Irina.Radchenko НИУ ВШЭ, Москва, 2012 Открытые данные во временной перспективе НИУ ВШЭ, Москва, 2012 2 Открытые наборы научных данных World Bank CERN NASA НИУ ВШЭ, Москва, 2012 3 Пример использования открытых геоданных НИУ ВШЭ, Москва, 2012 4 Открытые государственные данные за рубежом Цель: повысить открытость, доступность данных для граждан, способствовать распространению государственных данных в США: http://www.data.gov/ http://www.utah.gov/data/ http://data.octo.dc.gov/ https://nycopendata.socrata.com/ http://dwexternal.co.mecklenburg.nc.us/ids/ Nav_Reports.aspx/ http://www.govtrack.us/ http://openstates.org/ в Австралии: http://gov2.net.au/projects/index.html в Великобритании: http://data.gov.uk/ http://data.london.gov.uk/ http://openlylocal.com/councils http://www.mysociety.org/ в Канаде: http://www.toronto.ca/open/ https://data.edmonton.ca/ http://data.nanaimo.ca/ http://data.vancouver.ca/ в Швеции: http://www.opengov.se/data/ НИУ ВШЭ, Москва, 2012 5 Пятизвездочная модель открытых данных по Тиму Бернерсу-Ли Источник: http://5stardata.info/, http://www.w3.org/DesignIssues/LinkedData.html НИУ ВШЭ, Москва, 2012 6 Пятизвездочная модель открытых данных по Тиму Бернерсу-Ли ★ Данные доступны в Вебе (в любом формате), но подпадают под лицензию Открытых Данных (Open Data) — http://www.nationalarchives.gov.uk/doc/open-government-licence/. ★★ Данные доступны в качестве машинообрабатываемых структурированных данных (например, в виде Excel-таблицы вместо отсканированного изображения таблицы). Данные соответствуют двум звездам, плюс представлены в непроприетарном формате (например, в формате CSV вместо Excelформата). Данные соответствуют трем звездам, плюс представлены в открытых стандартах консорциума W3C (RDF и SPARQL), предназначенных для идентификации данных. Данные соответствуют четырем звездам, плюс они связаны с другими данными с учетом контекста их использования. ★★★ ★★★★ ★★★★★ Источник: http://www.w3.org/DesignIssues/LinkedData.html НИУ ВШЭ, Москва, 2012 7 Динамика развития Linked Open Data Темпы нарастания объемов фактов Количество наборов LOD 2007 2008 2009 2010 Время Источник: http://www.w3.org/wiki/SweoIG/TaskForces/CommunityProjects/LinkingOpenData НИУ ВШЭ, Москва, 2012 8 Пример использования LOD: проект DBpedia DBpedia — проект, направленный на извлечение структурированной информации из данных, собранных в рамках проекта Wikipedia. DBpedia позволяет пользователям запрашивать информацию, основанную на отношениях и свойствах ресурсов проекта Wikipedia, в том числе ссылки на соответствующие базы данных. Источник: http://wiki.dbpedia.org/Applications, http://talis-podcasts.s3.amazonaws.com/twt20080207_TimBL.html НИУ ВШЭ, Москва, 2012 9 Области использования Linked Open Data Облако наборов LOD охватывает около 30 миллиардов триплетов и 500 миллионов связей СМИ География Публикации Созданный пользователями контент Государственные данные Междисциплинарные области Источник: http://www.w3.org/wiki/SweoIG/TaskForces/CommunityProjects/LinkingOpenData НИУ ВШЭ, Москва, 2012 Науки о жизни 10 Преимущества использования Linked Open Data Связанность данных Доступность данных Машиночитаемость данных НИУ ВШЭ, Москва, 2012 11 Стек Linked Open Data Источник: http://iradche.livejournal.com/3881.html НИУ ВШЭ, Москва, 2012 12 Следующий шаг: проект LOD2 Развитие проекта LOD2 в рамках 7 рамочной программы Европейского союза Источник: http://lod2.eu/ НИУ ВШЭ, Москва, 2012 13 Стек разработок проекта LOD2 OntoWiki – инструментарий для работы с моделью данных RDF. PoolParty – система управления тезаурусом и редактирования контента в рамках концепции Semantic Web (включая text mining и связанные данные). Sig.ma – инструментарий для разработки Web of Data. RDF, RDFa или Microformats (стандарт Web of Data). Sig.ma – браузер Semantic Web. Comprehensive Knowledge Archive Network (CKAN) – каталог для наборов открытых данных. D2R Server – инструментарий для опубликования реляционных баз данных в Semantic Web. Dbpedia Extraction – получает структурированную информацию из Wikipedia и делает ее машиночитаемой и связанной. MonetDB – СУБД, поддерживающая реляционные базы данных, XML и RDF данные. SemMF – инструментарий для расчета схожести объектов, подвергающихся связыванию. Представляет связанные объекты в виде RDF-графа. DL-Learner – инструментарий для мониторинга машинного обучения в OWL. Источник: http://lod2.eu/ НИУ ВШЭ, Москва, 2012 14 Стек разработок проекта LOD2 Silk Framework поддерживает публикацию RDF-данных из разнородных информационных источников. Использует декларативны язык Silk - Link Specification Language (Silk-LSL). Sindice – инструментарий для объединения огромных массивов связанных данных в единое информационное пространство связанных данных. Sparallax – интерфейс для реализации SPARQL-запросов, основанных на Freebase Parallax. Triplify обеспечивает перевод данных в RDF-формат. OpenLink Virtuoso – база знаний и платформа виртуализации, интегрирующая Data, Services и Business Processes в рамках предприятия. The Web Information Quality Assessment Framework (WIQA) – инструментарий для аналитической обработки и фильтрации данных, представляемых в рамках концепции Semantic Web. Spatial Semantic Browers – приложение для просмотра геоданных в формате RDF. LIMES – инструментарий для связывания данных в рамках концепции Semantic Web. Источник: http://lod2.eu/ НИУ ВШЭ, Москва, 2012 15 Основные направления инициатив, направленных на открытие науки Открытие массивов научных данных Создание электронных научных хранилищ и профильных поисковых сервисов Разработка инструментов для совместной работы Создание специализированных социальных сетей НИУ ВШЭ, Москва, 2012 16 Примеры использования наборов открытых данных в науке Genome Commons (http://genomecommons.org/) Связанные наборы данных из различных источников: dbSNP, dbGaP, PharmGKB, GeneTests, OMIM, MutationView и сотни специализированных баз данных. TARDIS (http://www.tardis.edu.au/) Наборы данных по кристаллографии. НИУ ВШЭ, Москва, 2012 17 Примеры использования наборов открытых данных в науке Australian Social Science Data Archive (http://www.assda.edu.au/) Council of European Social Science Data Archives (http://www.cessda.org/) НИУ ВШЭ, Москва, 2012 18 Примеры использования наборов открытых данных в науке National Radio Astronomy Observatory (https://archive.nrao.edu/archive/advquery.jsp/) Social Science Data Archive (http://dataarchives.ss.ucla.edu/) НИУ ВШЭ, Москва, 2012 19 Электронные научные хранилища и профильные поисковые сервисы за рубежом JSTOR ScienceDirect CiteSeerX EBSCO Scopus WorldCat НИУ ВШЭ, Москва, 2012 20 Электронные научные хранилища и профильные поисковые сервисы за рубежом Google Books Web of Science Open Library MS Academic Search Inspec arXiv НИУ ВШЭ, Москва, 2012 21 Электронные научные хранилища и профильные поисковые сервисы в России eLibrary eBdb VINITI Database RAS BookFi.org Руконт НИУ ВШЭ, Москва, 2012 22 Разработка инструментов для совместной работы исследователей Figshare (http://figshare.com/)предоставляет исследователям следующие возможности: • быстрая публикация результатов исследований; • упрощенная процедура цитирования; • совместное использование результатов заинтересованными исследователями. Лицензия: Creative commons Digital Science (http://www.digital-science.com/) предоставляет программные продукты для совместных научно-исследовательских работ. НИУ ВШЭ, Москва, 2012 23 Разработка инструментов для совместной работы исследователей Tools for the Citizen Scientist (NASA) предоставляет программные продукты для совместных научно-исследовательских работ. НИУ ВШЭ, Москва, 2012 24