Заголовок слайда отсутствует

Download Report

Transcript Заголовок слайда отсутствует

Российские ресурсы
астрономических данных и их
интеграция в структуру
Международной виртуальной
обсерватории
Д.А.Ковалева, О.Б.Длужневская
Институт астрономии РАН
RCDL'2011, Воронеж, 19-22.10.11
Содержание
• Российская виртуальная обсерватория в
структуре МВО
• Российские ресурсы астрономических данных
– Общая характеристика
– Тематика
• Интеграция российских ресурсов в структуру
МВО
– Регистрация в реестре ВАО
– Избранные российские астрономические ресурсы
– Оцифровка архивов
• Заключение
RCDL'2011, Воронеж, 19-22.10.11
Виртуальная обсерватория
• Повышение эффективности использования
астрономических данных:
– Расширение числа пользователей путем
предоставления свободного доступа к данным в
виртуальной среде;
– Инструменты ВО берут на себя трудоемкую,
отнимающую много времени черновую работу.
• Как новые, так и ранее полученные данные
RCDL'2011, Воронеж, 19-22.10.11
Виртуальная обсерватория
включает в себя
• астрономические данные (в виде
архивов космических и наземных
телескопов, каталогов, баз данных);
• средства поиска, доступа к данным и
их обработки;
• научные приложения результатов
работы с данными.
RCDL'2011, Воронеж, 19-22.10.11
www.ivoa.net
RCDL'2011, Воронеж, 19-22.10.11
Российская виртуальная
обсерватория (РВО)
В декабре 2001 года НСА РАН внес Проект РВО в
числе важнейших международных проектов РАН.
Координаторами Проекта являются ИНАСАН, САО
РАН, ГАИШ и ИПИ РАН. Участники Проекта – рабочие
группы ряда астрономических учреждений.
Российская виртуальная обсерватория является
открытым проектом, и любое сотрудничество с другими
учреждениями приветствуется
RCDL'2011, Воронеж, 19-22.10.11
RCDL'2011, Воронеж, 19-22.10.11
Рабочая группа Данные РВО
на базе Центра астрономических данных ИНАСАН
• Обеспечить российских астрономов удобным
доступом к мировым астрономическим ресурсам.
– Зеркалирование популярных зарубежных ресурсов
данных.
• Объединить российские астрономические данные и
интегрировать их в международную виртуальную
обсерваторию.
– Создание списка основных российских
астрономических Интернет ресурсов. Включение их в
реестры ВО.
– Оцифровка архивов астронегативов («стеклянных
библиотек»)
RCDL'2011, Воронеж, 19-22.10.11
Зеркала
ADS (Astrophysics Data System) – крупнейшая
астрономическая электронная библиотека,
объединяющая 4 библиографические базы данных
(астрономия и науки о планетах, физика и
геофизика, космические инструменты, астрон.
препринты). Около 3.6 млн. записей.
VizieR – наиболее полная база данных
астрономических каталогов и таблиц данных. В
настоящее время содержит около 7000 каталогов,
также включает в себя каталоги, доступные по FTP, и
словарь обозначений небесных объектов.
VALD – Венская база данных атомных линий, объем
данных 6 Gb. Оригинал в Австрии; зеркала: США,
Швеция, Германия
RCDL'2011, Воронеж, 19-22.10.11
Ресурсы в МВО
• «Ресурс» в ВО – общий термин: элемент ВО,
предоставленный пользователю провайдером.
• Примеры:
– коллекция данных или метаданных
– приложение
– сервис доступа
– информация об учреждении
–…
RCDL'2011, Воронеж, 19-22.10.11
Российские ресурсы
астрономических данных
• Ресурсы, содержащие оригинальные
астрономические данные
• Созданные российскими исследователями
или с их участием
• Размещенные на сайтах российских
астрономических учреждений
• Начальные характеристики: количество
http://www.inasan.ru/eng/rvo/rus_res.html
RCDL'2011, Воронеж, 19-22.10.11
РРАД: 2002-2011
160
140
120
100
80
60
40
20
0
2002
2003
2004
2005
2006
2007
2008
2009
2010
2011
Россия
38
50
0
80
89
0
111
0
144
152
Страны бСССР
13
15
0
17
18
0
18
0
22
43
RCDL'2011, Воронеж, 19-22.10.11
РРАД: динамика в зависимости
от тематики
35
30
25
20
15
10
5
0
Solar-Earth and
Cosmic Rays
Sun
15
9
19
6
8
24
13
31
11
15
Stellar systems
Stars
Solar System
2006
6
20
2011
19
31
Radio
astronomy
RCDL'2011, Воронеж, 19-22.10.11
Mixed data
archives
РРАД: обновляемость в
зависимости от тематики
60
50
40
%
30
20
10
0
%
Stellar systems
Stars
Solar System
Solar-Earth and
Cosmic Rays
Sun
Radio
astronomy
Mixed data
archives
21
21
44
60
52
39
60
RCDL'2011, Воронеж, 19-22.10.11
РРАД: уровни внутренней
организации
1. Набор разнородных данных, часто, но не
обязательно объединенных общей тематикой.
2. Таблица данных (каталог).
3. База данных с выраженной внутренней
структурой, но без поискового интерфейса.
4. База данных с поисковым интерфейсом, часто с
возможностью дополнительных сервисов.
RCDL'2011, Воронеж, 19-22.10.11
РРАД: уровень 1. Наборы данных
•
Чаще всего: на личных веб страницах сотрудников учреждений,
–
•
•
•
•
•
хотя можно встретить и на страницах отделов и, в некоторых случаях, на уровне
веб страниц учреждения.
Как правило: результаты наблюдений и(или) исследований
сотрудника или группы сотрудников в определенной области или в
определенный промежуток времени, без систематизации.
Редко обновляются.
Относятся к относительно небольшому количеству объектов или
явлений (до нескольких десятков), и не являются объемными.
В количественном отношении - около 15% списка.
Редко представляют результаты мирового уровня, имеющие
явную научную ценность для астрономического сообщества.
RCDL'2011, Воронеж, 19-22.10.11
РРАД: уровень 2. Каталоги
•
Каталоги, подготовленные в
формате CDS и нередко (хотя
не всегда!) имеющие номер
CDS (уже в системе ВО) .
• Таблицы в свободном
формате
•Четкая одноуровневая организация
• ftp-доступ (другие виды доступа могут быть возможны, но не
всегда).
•Количество объектов: от небольшого (несколько десятков) до весьма
значительного (миллионы).
•Занимаемый объем: в общем, пропорционален числу объектов.
•В структуре обсуждаемого списка РРАД: до 30%.
RCDL'2011, Воронеж, 19-22.10.11
РРАД: уровень 3 и 4. Базы данных
3. Без поискового
интерфейса
• Чаще небольшое
количество объектов
(до сотен)
• Созданы раньше,
обновляются реже
• До 15% списка
4. С поисковым
интерфейсом
• Чаще большое
количество объектов
Ежедневные наблюдения Солнца
на РАТАН-600, САО РАН
Каталог пульсаров, ФТИ им.
Иоффе
http://www.sai.msu.ru/neb/nss/index.htm
• Чаще современные
и(или) обновляемые
• Более 25% списка
http://www.ioffe.ru/astro1/psr-catalog/Catalog.php
Служба естественных спутников планет, ГАИШ МГУ
http://www.sai.msu.ru/neb/nss/index.htm
Система астрометрических баз данных, ГАО РАН (Пулково)
http://www.puldb.ru/index.php
RCDL'2011, Воронеж, 19-22.10.11
РРАД: еще варианты ресурсов
•
Астрономические ресурсы,
подлежащие развертыванию на
компьютере пользователя (как
базы данных с интегрированными
сервисами, так и сервисные
пакеты с интегрированными
базами данных),
•
Он-лайн сервисы: информация о
текущем состоянии объекта или
явления, и(или) прогнозы
(Солнце, солнечно-земные связи,
космические лучи): частая
обновляемость (от 10 минут до
суток). В некоторых случаях эти
сервисы комбинированы с базами
данных с развитым интерфейсом,
но существуют и самостоятельно
• Около 5%
Пакет AMPLE (Adaptable Ephemeris
for Minor Planets), ИПА РАН
•
Около 5%
http://www.ipa.nw.ru/PAGE/DEPFUND/LSBSS/rusample.htm
http://www.izmiran.ru/services/saf/
Прогноз солнечной активности,
ИЗМИРАН
RCDL'2011, Воронеж, 19-22.10.11
Проблема (временной?) недоступности
ресурсов
• Поддержка списка 150-200
независимых РАД:
– Около 5% недоступны (при условии регулярных
обновлений списка!)
• Случайные сбои
• Обновления сайтов
• Изменение структуры и интернет-адресов РАД
– Проблема курирования
• Прекращение поддержки РАД
– Проблема сохранности данных
RCDL'2011, Воронеж, 19-22.10.11
Интеграция ресурсов в
систему МВО
• Программа-минимум: пользователь
ВО и/или его приложения
обнаруживают информацию о
ресурсе.
• Программа-максимум: пользователь
ВО и/или его приложения
обнаруживают данные ресурса и
используют их.
RCDL'2011, Воронеж, 1922.10.11
Интеграция РРАД в систему МВО
• Регистрация РРАД в реестре ВО
• Размещение в CDS российских каталогов
(интеграция в систему доступа к каталогам
VizieR)
• Создание ВО-совместимых
интегрирующих ресурсов
• Оцифровка и создание баз данных
астронегативов
RCDL'2011, Воронеж, 19-22.10.11
Поиск ресурсов в МВО:
Реестры ресурсов (Registries)
•
Реестры МВО: содержат структурированные описания ресурсов и
позволяют Пользователям и их приложениям находить коллекции
данных и метаданных и сервисы на уровне Ресурсов.
– Реестры: Publishing/Search
–
RegistryInterface (компоненты search/harvesting): базируется
на стандартном Web Service Description Language +
harvesting определяется OAI-PMH протоколом
RCDL'2011, Воронеж, 19-22.10.11
Интеграция ресурсов в МВО:
Реестры ресурсов (Registries)
–
–
•
ResourceMetadata — метаданные описания ресурсов (два
уровня регистрации, базируется на стандарте DublinCore ):
•
«поверхностный» - информирование пользователя ВО о
наличии ресурса и его содержании в целом (Identifier, Name,
Curation, Content,…)
•
Более глубокое «включение» ресурса: данные о содержании
ресурса, специфические для этого ResourceType
Примерно от 20 до 40 параметров для каждого ресурса
Пока около 40 РРАД зарегистрировано вручную
Реестр NVO/VAO (США) http://nvo.ncsa.uiuc.edu/stsci/nvoregistration.html
+ зарегистрированы автоматически (каталоги CDS) в
реестрах МВО: ? 50 - 70 ?
RCDL'2011, Воронеж, 19-22.10.11
Избранные РРАД мирового уровня
• Объединенный каталог переменных звезд
(ИНАСАН + ГАИШ МГУ)
• CATS (CAtalogue Support System) (САО
РАН)
• Каталог рассеянных скоплений ГАИШ
(ГАИШ МГУ)
• База данных о двойных звездах (БДБ)
(Обсерватория Безансона, Франция, +
ИНАСАН)
RCDL'2011, Воронеж, 19-22.10.11
Объединенный каталог переменных звезд
http://www.sai.msu.su/gcvs/
•
•
•
•
•
Содержит данные обо всех известных переменных звездах (свыше 70
тысяч объектов), постоянно пополняется.
Является наиболее полной и авторитетной базой данных для
астрономических объектов этого типа.
Поддержка различных видов доступа, возможность поиска по параметрам.
Один из наиболее востребованных специализированных астрономических
ресурсов.
Обработка астрофотографий → открытие новых переменных звезд.
RCDL'2011, Воронеж, 19-22.10.11
Web Site:
http://www.skyarchive.org
RCDL'2011, Воронеж, 19-22.10.11
CATS – CAtalogue Support System
http://www.sao.ru/cats/
•
•
•
•
•
•
Система поддержки астрофизических каталогов (радио данные).
Все крупные (>1000 записей) каталоги радиоисточников (в том числе
каталоги наблюдений на РАТАН-600).
Программы для работы с каталогами.
> 1 млн записей из > 400 каталогов.
Поддерживается несколько способов доступа, включая веб-интерфейс.
Ежедневно около 1500 обращений к системе (по информации авторов).
RCDL'2011, Воронеж, 19-22.10.11
Каталог рассеянных скоплений ГАИШ
http://ocl.sai.msu.ru/
•
Крупнейший каталог новых рассеянных скоплений (около 170).
•
Создан с помощью средств ВО и в согласии со стандартами ВО.
•
Представлены средства для получения новых научных
результатов из данных каталога (+ данные ВО) в режиме on-line.
RCDL'2011, Воронеж, 19-22.10.11
База данных о двойных звездах (БДБ, наследует
Besancon Database of Binaries)
ранее http://bdb.obs-besancon.fr/
сейчас в ИНАСАН: тестовый режим
•
•
•
•
База данных о двойных и кратных звездах всех наблюдательных типов.
Интеграция и обеспечение доступа к данным обо всех типах двойных
звезд.
Каталоги двойных звезд различных типов включаются в БДБ, с базами
данных устанавливаются связи.
Еще одно средство интеграции в том числе РРАД о двойных звездах в
систему МВО.
RCDL'2011, Воронеж, 19-22.10.11
Итоги
• Цель ВО: повышение эффективности использования
астрономических данных.
• Рабочая группа Данные РВО поддерживает список
российских ресурсов астрономических данных (около 150
ресурсов): http://www.inasan.ru/eng/rvo/rus_res.html
• Поддерживаются различные направления интеграции РРАД
в систему МВО:
–
–
–
–
регистрация ресурсов в ВО-реестре;
представление каталогов в CDS;
создание ВО-совместимых интегрирующих ресурсов;
оцифровка архивов астронегативов.
• IVOA: http://www.ivoa.net
• RVO: http://www.inasan.ru/rus/rvo
RCDL'2011, Воронеж, 19-22.10.11
Спасибо!
RCDL'2011, Воронеж, 19-22.10.11
Разработчики стандартов
объединены в Рабочих
группах Альянса
• Задача групп: выработка стандартов для описания
астрономических данных, объектов, процессов,
программной архитектуры
• Пример стандартов: формат данных (VOTable), описания
метаданных ресурсов (Resource Metadata), модель данных
для одномерных спектров (Spectrum Data Model) , язык
запросов к данным (ADQL), протоколы доступа к спектрам и
изображениям (SIAP, SSAP), и пр.
• Документы и стандарты IVOA: http://www.ivoa.net/Documents/
RCDL'2011, Воронеж, 19-22.10.11
Создавая ВО: направления работы
•
•
•
•
•
Разработка стандартов и
протоколов, их
международное
согласование.
Создание и предоставление
ресурсов данных.
Создание «соединяющих»
компонентов: портал,
реестр, виртуальное
хранилище и пр.
Создание механизмов для
научной обработки данных.
Установка и сопровождение
реестров ресурсов и систем
поддержки пользователей.
• Альянс МВО
• Национальные узлы
ВО
RCDL'2011, Воронеж, 19-22.10.11
Финансирование
• МВО: $25 миллионов на первые 10 лет
• Subaru (один из крупнейших наземных
телескопов, 8.3 м): $377 миллионов
(наблюдательная ночь на таком телескопе
стоит около $50 тысяч)
• Galileo (14-летняя миссия к Юпитеру,
закончилась 21 сентября 2003): $1.5
миллиарда
• HST (крупнейший космический телескоп):
$7.5 миллиардов на период 1989-2010
RCDL'2011, Воронеж, 1922.10.11
Changing funding scenario (IVOA has no funds of its own)
Project
2007
ArVO
AstroGrid
BRAVO
CVO
China VO
►
▼
▲
▲
▲
ESA
▼
ESO
▼
Euro-VO
France-VO
GAVO
JVO
NVO → VAO
▼
►
►
▼
▲
RVO
►
SVO
VObs.it
▲
▼
funding
35 K$
10 K$
400 K$
75 K$
2010
FTE
5
5
4
10
(3 staff)
6
funding
66 K$
80K$
800 k$
400 K$
6.5
(3 EuroVO)
240 K€
56 M¥
2.5 M$
(peak)
24 K€
~ 15
4
265 K€
6
32 M¥
15
5.5 M$
(peak) (average, assigned)
end
FTE
6 yearly?
ops. guaranteed 2009
10 2012
7
10→12 yearly?
(4→5 staff)
2.5
(+ publishing)
4.5
(2 EuroVO)
2011
~ 15 yearly?
4 2011
6
25 2015
(average, estim.)
5
30 K€
5 yearly
(permanent)
(permanent)
380 K€
5
475 K€
10 2011
315 K€
12.7
270 K€
11.4 yearly
125 INAF + 190
(7.7 permanent)
145 INAF + 125 (6.4 permanent)
RCDL'2011,
Воронеж, 19Euro-VO
EU
22.10.11
Выбор языка
программирования
•
•
•
•
•
•
Выбор языка программирования Python, СУБД PostgreSQL (веб сервер Apache, ОС UNIX) для модернизации БДБ и
реализации веб-интерфейса и обслуживающих программ обусловлен их кросс-платформенностью, высокой степенью
функциональности и наличием серьезного задела, а также тем, что указанные средства являются свободно
распространяемыми. Несвободное программное обеспечение не рассматривалось, так как его сложно протестировать в
полном объеме до покупки, оно гораздо менее распространено и отлажено, чем его свободные аналоги, а также оно
может содержать программные “закладки” или уязвимости в безопасности, обнаружение которых затруднено ввиду
отсутствия доступа к исходным кодам. Основными требованиями при выборе программного обеспечения являлись:
1. Расширяемость (возможность добавления новой функциональности без существенных изменений в уже написанном
коде).
2. Переносимость (возможность запускать приложение на различных программных и аппаратных платформах без
изменения исходного кода, что позволяет незаметно для пользователей переносить код на более мощные серверы, по
мере возникновения такой необходимости).
3. Масштабируемость (возможность увеличивать производительность приложения за счет увеличения числа серверов,
на котором оно выполняется).
4. Устойчивость к сбоям (гарантия от потерь важных данных в случае сбоев аппаратных и программных компонентов).
SQLite является достаточно простой системой СУБД, поддерживающей, тем не менее, транзакции и подзапросы SQL,
что делает ее идеальной платформой для отладки кода. PostgreSQL является достаточно мощной и надежной системой,
также поддерживающей практически полностью язык запросов SQL, что послужило причиной выбора ее в качестве
основной рабочей СУБД проекта. Распространенная программная платформа PHP была отвергнута на основании
плохой совместимости между ее различными версиями и наличия большого количества открытых уязвимостей
безопасности. Язык Python менее требователен к ресурсам, чем Perl. При этом для него существует множество
библиотек, облегчающих разработку web-приложений. Синтаксис Python достаточно прост и позволяет писать очень
хорошо структурированные программы. Наиболее интересной особенностью Python является наличие особой среды
разработки Nagare (nagare.org), позволяющей резко упростить и ускорить создание веб-приложений. Дополнительным
преимуществом Python является возможность использования объектно-ориентированных библиотек для доступа к
базам данных.
RCDL'2011, Воронеж, 19-22.10.11
• the ConeSearch is performed using
Q3C with PostgreSQL.
SDSS $85 mln
• Large Synoptic Survey Telescope
(LSST) in Cerro Pachón, Chile 2019 30
Тб за ночь $450 млн 8.4 м
• Galaxy Zoo project
• VAO instead of NVO: $27,5 mln
RCDL'2011, Воронеж, 1922.10.11