Transcript Document

20.07.2015
1
Соловьев Владимир Михайлович
Полномасштабное распределенное хранилище данных
национальной нанотехнологической сети
В 2009 г. будет создана полномасштабная система распределенного сбора, хранения,
обработки и управления потоками научных и технологических данных национальной
нанотехнологической сети (ННС). Основу масштабируемой распределенной системы
данных (РСД) составят пять онлайновых центров данных (ЦД) ННС, объединенных
широкополосными каналами связи. В дальнейшем к этим ЦД, для наращивания
объемов хранимой информации, могут подключаться географически удаленные ЦД и
серверы, реализующие grid-сервисы хранения.
Пользователи
ННС
Сервер 1:
Scientific Linux;
gLite
Сервер 2:
Scientific Linux;
gLite
Сервер N:
Scientific Linux;
gLite
ННС – РСД
(Data grid)
Широкополосный канал связи
Grid computing
Grid computing
ЦД 1:
Scientific Linux;
gLite
20.07.2015
ЦД 2:
Scientific Linux;
gLite
ЦД 3:
Scientific Linux;
gLite
ЦД 4:
Scientific Linux;
gLite
ЦД 5:
Scientific Linux;
gLite
2
Полномасштабное распределенное хранилище данных
национальной нанотехнологической сети
Центр данных (ЦД) - это data grid cluster, выполненный на десяти серверах,
подключенных через коммутатор к ННС. Конструктив ЦД представляет собой
автономную стойку, питающуюся через источник бесперебойного питания. На
серверах установлена операционная система Scientific Linux CERN 4.7,
поддерживающая распределенную файловую систему. Для реализации grid-сервисов
хранения на серверах установлен программный комплекс gLite 3.1. Аналогичное ПО
должно стоять и на отдельных серверах, реализующие grid-сервисы хранения.
Стойка 42 U
10 серверов
HP ProLiant
DL160 G5
ProCurve
2810-24G
Smart-UPS RT
8000VA/6400W
Кластер установленный в РНЦ
«Курчатовский институт»
20.07.2015
Кластер установленный в
Саратовском государственном
университете
3
Полномасштабное распределенное хранилище данных
национальной нанотехнологической сети
Цифровые
материалы
ННС
Необработанные
экспериментальные данные
Описание
параметров
экспериментов
Данные
имитационного
моделирования
В наноиндустрии при проведении уникальных и дорогостоящих
экспериментов требуется долговременно хранить очень большие
объемы «сырых» необработанных экспериментальных данных в
десятки и сотни Тбайт.
Унифицированный механизм
обмена данными
Репозиторий
цифровых
материалов
Файлы
Файловые
системы Unix,
Windows
Каталоги
файлов
Инструкции по
эксплуатации
оборудования
Методики
проведения
экспериментов
Научные отчеты
и комментарии
20.07.2015
Архивные
системы
хранения HPSS
Бинарные
большие объекты
в DBMS
Массивы
Таблицы
Объекты
доступные через
SQL-запросы
Библиотеки на
магнитных
лентах
Гарантированный сервис
Скорость доступа
к данным
Требуемый
уровень защиты
Сохранность
данных
Удобный
интерфейс
Распределенному
хранилищу данных
соответствует
многоуровневая
архитектура,
содержащая уровень
интерфейсов
пользователя для
управления
данными, уровень
программного
интерфейса для gridсервисов сбора,
обработки и
управления
потоками данных, и
ресурсный уровень.
4
Полномасштабное распределенное хранилище данных
национальной нанотехнологической сети
Ресурсный уровень хранилища данных (РСД)
Сайт (Site)
Сайт (Site)
Вычислительные
ресурсы (CE)
Информация
о сайте
Сайт (Site)
Элементы хранения
данных (SE)
Информация о других
сайтах хранилища
В РСД совокупность
вычислительных
ресурсов (Computing
Element, CE) и
элементов хранения
данных (Storage
Elements, SE)
cосредоточена на
сайте (Site)
DPM
DPM
Внутреннее
хранилище CE
Поддержка
протоколов
20.07.2015
DPM
DPM
DPM
SE
SE
Файловая
статистика
Для объединения
всех элементов
хранения данных
(SE) в единое
хранилище,
используется gridсервис DPM (Disk
Pool Manager)
5
Полномасштабное распределенное хранилище данных
национальной нанотехнологической сети
Ресурсный уровень хранилища данных (РСД продолжение)
Иерархическая модель предоставления информации о grid-сервисах в РСД:
CE, SE  GRIS  GIIS  BDII
GRIS
SE
GRIS
CE
GRIS
SE
GRIS
CE
GRIS
SE
GRIS
CE
GIIS
GIIS
GIIS
Site
Site
Site
Grid Index Information
System (GIIS)
Grid Index Information
System (GIIS)
Grid Index Information
System (GIIS)
REGION
REGION
REGION
Berkeley
Database
Information Index
(BDII)
Сервис
поддерживается по
протоколу Lightweight
Directory Access
Protocol (LDAP)
Berkeley
Database
Information Index
(BDII)
На каждом сайте информационные провайдеры GRIS (Grid Resource Information Server) собирают информацию
о grid-сервисах CE и SE. Эта информация аккумулируется в коллекторах информации сайтов GIIS (Grid Index
Information System) и сервисах BDII (Berkeley Database Information Index). На самом верхнем уровне находится
grid-сервис top-BDII, имеющий информацию со всех сайтов.
20.07.2015
6
Полномасштабное распределенное хранилище данных
национальной нанотехнологической сети
Ресурсный уровень хранилища данных (РСД продолжение)
Получение данных в РСД с помощью сервиса SRM (Storage Resource Manager)
Каждый сайт поддерживает сервис
управления хранением данных (SRM)
– общий интерфейс к устройствам
хранения
GUID
Pay to
LFC сервер
SURL
SU
N
LF
MICROSOFT CORPORATION
SU
lfn:sgu/20090121/disk2/track1
RL
RL
Пользователи
ACL
R
L
guid:f81d4fae-7dec-11d0-a765-00a0c91e6bf6
LFN
Виртуальные
научные организации
$
TU
LF
N
srm://prcnit.sgu.ru/flatfiles/cms/output10_1
Администраторы
gLite
SRM сервер
TURL
TU
R
SRM сервер
L
rfio://lxshare0209.sgu.ru/data/alice/ntuples.dat
Пользователь
или приложение
(клиент)
SE
SE
SE
SRM сервер
•LFN - Logical File Name, логическое имя файла, создаваемое пользователем для его идентификации в РСД.
•LFC - Large Hydron Collider Computing Grid File Catalogue, сервис определяющий местоположения файлов в РСД.
•GUID - Globally Unique Identifier, внутренний (машинный) идентификатор элемента данных, соответствующий LFN.
•ACL - Access Control List, списки управления доступом к данным.
•SURL - Site Uniform Resource Locator, определитель физического местоположения реплики элемента данных (SE) в РСД.
•TURL- Transfer Uniform Resource Locator, идентификатор транспорта, определяющий место и протокол, получения файла.
20.07.2015
7
Полномасштабное распределенное хранилище данных
национальной нанотехнологической сети
Интерфейс пользователя для управления данными ( клиент РСД)
Screen shots применения клиента РСД при
работе с данными
Клиент реализует следующие
основные сервисы:
•организует взаимодействие
пользователя ННС с хранилищем
данных по протоколу grid-ftp;
•организует доступ к grid-сервисам на основе цифровых
сертификатов;
•организует взаимодействие с цифровой библиотекой для создания цифровых объектов, поиска данных и
управления потоками данных в РСД.
20.07.2015
8
Полномасштабное распределенное хранилище данных
национальной нанотехнологической сети
Интерфейс пользователя для управления данными ( клиент РСД продолжение)
Цифровая библиотека
ЦО
Сервер
РСД
Операции с цифровыми объектами
ЦО
ЦО
Метаданные
Операции с метаданными
Клиент
Запись
Grid-ftp
Запись
Операции с цифровыми
объектами
Grid-ftp
Grid-ftp
ЦО
Сервер
РСД
ЦО
ЦО
Чтение
Чтение
ЦО
Сервер
РСД
ЦО
ЦО
ЦО
Сервер
РСД
Grid- кластер
ЦО
ЦО
ЦО
Сервер
РСД
ЦО
ЦО
ЦО
Сервер
РСД
ЦО
ЦО
Grid-кластер
Клиент предназначен для организации web-доступа к РСД. В шести
разработанных версиях реализованы различные возможности: от выполнения
всех сервисов на стороне клиента до выполнения всех сервисов на сервере.
20.07.2015
9
Полномасштабное распределенное хранилище данных
национальной нанотехнологической сети
Управление цифровыми объектами в РСД
Screen shots применения клиента
РСД при работе с цифровой
библиотекой
Для работы с цифровыми объектами в РСД
разработана подробная инструкция для
пользователей
20.07.2015
10
Пользователь
Web
браузер
Идентификационный номер
(PID)
Метаданные ЦО
(FOXML)
Свойства ЦО
(OP)
Реляционные метаданные
(RM)
Цифровой поток
(Datastream)
Цифровой поток
(Datastream)
Цифровой поток
(Datastream)
Подключение по умолчанию
(Default)
Подключение выбираемое
(Custom)
Подключение выбираемое
(Custom)
Идентификационный номер
(PID)
Метаданные ЦО
(FOXML)
Свойства ЦО
(OP)
Реляционные метаданные
(RM)
Цифровой поток
(Datastream)
Цифровой поток
(Datastream)
Цифровой поток
(Datastream)
Подключение по умолчанию
(Default)
Подключение выбираемое
(Custom)
Подключение выбираемое
(Custom)
Хранилище данных
(Fedora Repository System)
Идентификационный номер
(PID)
Метаданные ЦО
(FOXML)
Свойства ЦО
(OP)
Реляционные метаданные
(RM)
Цифровой поток
(Datastream)
Цифровой поток
(Datastream)
Цифровой поток
(Datastream)
Подключение по умолчанию
(Default)
Подключение выбираемое
(Custom)
Подключение выбираемое
(Custom)
Идентификационный номер
(PID)
Метаданные ЦО
(FOXML)
Свойства ЦО
(OP)
Реляционные метаданные
(RM)
Цифровой поток
(Datastream)
Цифровой поток
(Datastream)
Цифровой поток
(Datastream)
Подключение по умолчанию
(Default)
Подключение выбираемое
(Custom)
Подключение выбираемое
(Custom)
Контент-сервис
Web-сервис
Frontend
Web-сервис
Пользователь
Клиент
приложений
Полномасштабное распределенное хранилище данных
национальной нанотехнологической сети
Управление цифровыми объектами в РСД (продолжение)
Backend
Контент-сервис
Интеграция клиента и Web-сервисов
20.07.2015
11
Полномасштабное распределенное хранилище данных
национальной нанотехнологической сети
Управление цифровыми объектами в РСД (продолжение)
Работа с цифровой библиотекой
Регистрация ВО
Регистрация виртуальной организации (ВО)
Доступ к SRM сервисам через gLite
Метаданные
...
ЦО
ЦО
...
SE
...
Работа с цифровыми
объектами
$
Работа с цифровыми
сертификатами
VOMS
Работа с gridftp
Pay to
Клиент
SE
Участник ННС
(виртуальная
научная
организация)
Центр
выдачи
сертификатов
Работа с цифровыми
объектами
Работа с gridftp
...
Выдача цифровых сертификатов
Клиент
Работа с цифровыми
сертификатами
Участник ННС
(виртуальная
научная
организация)
Работа с цифровыми
объектами
Работа с цифровыми
сертификатами
Работа с gridftp
Участник ННС
(виртуальная
научная
организация)
Клиент
Регистрация ВО
Цифровой объект
ЦО
ЦО
Grid-кластер (Site)
Grid-кластер (Site)
Цифровая библиотека
20.07.2015
12
Полномасштабное распределенное хранилище данных
национальной нанотехнологической сети
Управление цифровыми объектами в РСД (продолжение)
Работа с базами данных в РСД
Запрос
Данные
Средства
интеграции
цифровой
библиотеки
с СУБД
Запрос
SQL Server
Первый вариант
...
IBASE
Запрос
Postgre
SQL
Данные
Облако
приложений
Клиент
Запрос
Запрос
SQL Server
Запрос
Данные
...
Цифровая
библиотека
IBASE
Данные
Oracle
В РСД содержится вся информация о базах данных (БД)
ННС, реплики БД и условия доступа к БД. Пользователь,
используя эту информацию, через ННС соединяется с
нужным сервером базы данных, используя клиент БД.
20.07.2015
MySQL
Данные
Данные
Запрос
Файловая
система
Данные
Данные
Запрос
Метаданные
Запрос
Данные
Поиск
данных
Клиент
Цифровая
библиотека
Postgre
SQL
Данные
Работа с цифровыми
объектами
Данные
MySQL
Данные
Запрос
Участник ННС
(виртуальная
научная
организация)
Работа с gridftp
Запрос
Работа с цифровыми
объектами
Работа с цифровыми
сертификатами
Работа с gridftp
Данные
Файловая
система
Работа с цифровыми
сертификатами
Запрос
Участник ННС
(виртуальная
научная
организация)
Данные
...
Oracle
Данные
...
Второй вариант
Хранилище данных содержит специальные «облачные»
приложения (сервисы) работы с базами данных (БД) ННС,
располагающимися в РСД. Цифровая библиотека играет роль
«посредника» между БД и соответствующим приложением.
13
Полномасштабное распределенное хранилище данных
национальной нанотехнологической сети
Результаты работы
В результате выполнения работы пользователь получает масштабируемое прозрачное хранилище
гетерогенных данных с гарантированным качеством сервиса. В полномасштабном распределенном
хранилище данных обеспечивается требуемый уровень защиты, сохранность данных, необходимое
количество реплик, высокая скорость доступа к данным и унифицированный механизм обмена данными
разного типа (файлы, таблицы, массивы, базы данных и т.д.). Хранилище совместимо с
вычислительными сервисами grid-инфраструктуры и поддерживает долговременное хранение, поиск и
удобный доступ к данным. Полномасштабное распределенное хранилище управляет жизненным циклом
данных, включая создание материалов, передачу, сохранение и доступ ко всем цифровым материалам.
20.07.2015
14
Спасибо за внимание
Докладчик – Владимир Михайлович Соловьев
Е-Mail: [email protected]
Телефон: (8452) 210 660
20.07.2015
15