Transcript Document
20.07.2015 1 Соловьев Владимир Михайлович Полномасштабное распределенное хранилище данных национальной нанотехнологической сети В 2009 г. будет создана полномасштабная система распределенного сбора, хранения, обработки и управления потоками научных и технологических данных национальной нанотехнологической сети (ННС). Основу масштабируемой распределенной системы данных (РСД) составят пять онлайновых центров данных (ЦД) ННС, объединенных широкополосными каналами связи. В дальнейшем к этим ЦД, для наращивания объемов хранимой информации, могут подключаться географически удаленные ЦД и серверы, реализующие grid-сервисы хранения. Пользователи ННС Сервер 1: Scientific Linux; gLite Сервер 2: Scientific Linux; gLite Сервер N: Scientific Linux; gLite ННС – РСД (Data grid) Широкополосный канал связи Grid computing Grid computing ЦД 1: Scientific Linux; gLite 20.07.2015 ЦД 2: Scientific Linux; gLite ЦД 3: Scientific Linux; gLite ЦД 4: Scientific Linux; gLite ЦД 5: Scientific Linux; gLite 2 Полномасштабное распределенное хранилище данных национальной нанотехнологической сети Центр данных (ЦД) - это data grid cluster, выполненный на десяти серверах, подключенных через коммутатор к ННС. Конструктив ЦД представляет собой автономную стойку, питающуюся через источник бесперебойного питания. На серверах установлена операционная система Scientific Linux CERN 4.7, поддерживающая распределенную файловую систему. Для реализации grid-сервисов хранения на серверах установлен программный комплекс gLite 3.1. Аналогичное ПО должно стоять и на отдельных серверах, реализующие grid-сервисы хранения. Стойка 42 U 10 серверов HP ProLiant DL160 G5 ProCurve 2810-24G Smart-UPS RT 8000VA/6400W Кластер установленный в РНЦ «Курчатовский институт» 20.07.2015 Кластер установленный в Саратовском государственном университете 3 Полномасштабное распределенное хранилище данных национальной нанотехнологической сети Цифровые материалы ННС Необработанные экспериментальные данные Описание параметров экспериментов Данные имитационного моделирования В наноиндустрии при проведении уникальных и дорогостоящих экспериментов требуется долговременно хранить очень большие объемы «сырых» необработанных экспериментальных данных в десятки и сотни Тбайт. Унифицированный механизм обмена данными Репозиторий цифровых материалов Файлы Файловые системы Unix, Windows Каталоги файлов Инструкции по эксплуатации оборудования Методики проведения экспериментов Научные отчеты и комментарии 20.07.2015 Архивные системы хранения HPSS Бинарные большие объекты в DBMS Массивы Таблицы Объекты доступные через SQL-запросы Библиотеки на магнитных лентах Гарантированный сервис Скорость доступа к данным Требуемый уровень защиты Сохранность данных Удобный интерфейс Распределенному хранилищу данных соответствует многоуровневая архитектура, содержащая уровень интерфейсов пользователя для управления данными, уровень программного интерфейса для gridсервисов сбора, обработки и управления потоками данных, и ресурсный уровень. 4 Полномасштабное распределенное хранилище данных национальной нанотехнологической сети Ресурсный уровень хранилища данных (РСД) Сайт (Site) Сайт (Site) Вычислительные ресурсы (CE) Информация о сайте Сайт (Site) Элементы хранения данных (SE) Информация о других сайтах хранилища В РСД совокупность вычислительных ресурсов (Computing Element, CE) и элементов хранения данных (Storage Elements, SE) cосредоточена на сайте (Site) DPM DPM Внутреннее хранилище CE Поддержка протоколов 20.07.2015 DPM DPM DPM SE SE Файловая статистика Для объединения всех элементов хранения данных (SE) в единое хранилище, используется gridсервис DPM (Disk Pool Manager) 5 Полномасштабное распределенное хранилище данных национальной нанотехнологической сети Ресурсный уровень хранилища данных (РСД продолжение) Иерархическая модель предоставления информации о grid-сервисах в РСД: CE, SE GRIS GIIS BDII GRIS SE GRIS CE GRIS SE GRIS CE GRIS SE GRIS CE GIIS GIIS GIIS Site Site Site Grid Index Information System (GIIS) Grid Index Information System (GIIS) Grid Index Information System (GIIS) REGION REGION REGION Berkeley Database Information Index (BDII) Сервис поддерживается по протоколу Lightweight Directory Access Protocol (LDAP) Berkeley Database Information Index (BDII) На каждом сайте информационные провайдеры GRIS (Grid Resource Information Server) собирают информацию о grid-сервисах CE и SE. Эта информация аккумулируется в коллекторах информации сайтов GIIS (Grid Index Information System) и сервисах BDII (Berkeley Database Information Index). На самом верхнем уровне находится grid-сервис top-BDII, имеющий информацию со всех сайтов. 20.07.2015 6 Полномасштабное распределенное хранилище данных национальной нанотехнологической сети Ресурсный уровень хранилища данных (РСД продолжение) Получение данных в РСД с помощью сервиса SRM (Storage Resource Manager) Каждый сайт поддерживает сервис управления хранением данных (SRM) – общий интерфейс к устройствам хранения GUID Pay to LFC сервер SURL SU N LF MICROSOFT CORPORATION SU lfn:sgu/20090121/disk2/track1 RL RL Пользователи ACL R L guid:f81d4fae-7dec-11d0-a765-00a0c91e6bf6 LFN Виртуальные научные организации $ TU LF N srm://prcnit.sgu.ru/flatfiles/cms/output10_1 Администраторы gLite SRM сервер TURL TU R SRM сервер L rfio://lxshare0209.sgu.ru/data/alice/ntuples.dat Пользователь или приложение (клиент) SE SE SE SRM сервер •LFN - Logical File Name, логическое имя файла, создаваемое пользователем для его идентификации в РСД. •LFC - Large Hydron Collider Computing Grid File Catalogue, сервис определяющий местоположения файлов в РСД. •GUID - Globally Unique Identifier, внутренний (машинный) идентификатор элемента данных, соответствующий LFN. •ACL - Access Control List, списки управления доступом к данным. •SURL - Site Uniform Resource Locator, определитель физического местоположения реплики элемента данных (SE) в РСД. •TURL- Transfer Uniform Resource Locator, идентификатор транспорта, определяющий место и протокол, получения файла. 20.07.2015 7 Полномасштабное распределенное хранилище данных национальной нанотехнологической сети Интерфейс пользователя для управления данными ( клиент РСД) Screen shots применения клиента РСД при работе с данными Клиент реализует следующие основные сервисы: •организует взаимодействие пользователя ННС с хранилищем данных по протоколу grid-ftp; •организует доступ к grid-сервисам на основе цифровых сертификатов; •организует взаимодействие с цифровой библиотекой для создания цифровых объектов, поиска данных и управления потоками данных в РСД. 20.07.2015 8 Полномасштабное распределенное хранилище данных национальной нанотехнологической сети Интерфейс пользователя для управления данными ( клиент РСД продолжение) Цифровая библиотека ЦО Сервер РСД Операции с цифровыми объектами ЦО ЦО Метаданные Операции с метаданными Клиент Запись Grid-ftp Запись Операции с цифровыми объектами Grid-ftp Grid-ftp ЦО Сервер РСД ЦО ЦО Чтение Чтение ЦО Сервер РСД ЦО ЦО ЦО Сервер РСД Grid- кластер ЦО ЦО ЦО Сервер РСД ЦО ЦО ЦО Сервер РСД ЦО ЦО Grid-кластер Клиент предназначен для организации web-доступа к РСД. В шести разработанных версиях реализованы различные возможности: от выполнения всех сервисов на стороне клиента до выполнения всех сервисов на сервере. 20.07.2015 9 Полномасштабное распределенное хранилище данных национальной нанотехнологической сети Управление цифровыми объектами в РСД Screen shots применения клиента РСД при работе с цифровой библиотекой Для работы с цифровыми объектами в РСД разработана подробная инструкция для пользователей 20.07.2015 10 Пользователь Web браузер Идентификационный номер (PID) Метаданные ЦО (FOXML) Свойства ЦО (OP) Реляционные метаданные (RM) Цифровой поток (Datastream) Цифровой поток (Datastream) Цифровой поток (Datastream) Подключение по умолчанию (Default) Подключение выбираемое (Custom) Подключение выбираемое (Custom) Идентификационный номер (PID) Метаданные ЦО (FOXML) Свойства ЦО (OP) Реляционные метаданные (RM) Цифровой поток (Datastream) Цифровой поток (Datastream) Цифровой поток (Datastream) Подключение по умолчанию (Default) Подключение выбираемое (Custom) Подключение выбираемое (Custom) Хранилище данных (Fedora Repository System) Идентификационный номер (PID) Метаданные ЦО (FOXML) Свойства ЦО (OP) Реляционные метаданные (RM) Цифровой поток (Datastream) Цифровой поток (Datastream) Цифровой поток (Datastream) Подключение по умолчанию (Default) Подключение выбираемое (Custom) Подключение выбираемое (Custom) Идентификационный номер (PID) Метаданные ЦО (FOXML) Свойства ЦО (OP) Реляционные метаданные (RM) Цифровой поток (Datastream) Цифровой поток (Datastream) Цифровой поток (Datastream) Подключение по умолчанию (Default) Подключение выбираемое (Custom) Подключение выбираемое (Custom) Контент-сервис Web-сервис Frontend Web-сервис Пользователь Клиент приложений Полномасштабное распределенное хранилище данных национальной нанотехнологической сети Управление цифровыми объектами в РСД (продолжение) Backend Контент-сервис Интеграция клиента и Web-сервисов 20.07.2015 11 Полномасштабное распределенное хранилище данных национальной нанотехнологической сети Управление цифровыми объектами в РСД (продолжение) Работа с цифровой библиотекой Регистрация ВО Регистрация виртуальной организации (ВО) Доступ к SRM сервисам через gLite Метаданные ... ЦО ЦО ... SE ... Работа с цифровыми объектами $ Работа с цифровыми сертификатами VOMS Работа с gridftp Pay to Клиент SE Участник ННС (виртуальная научная организация) Центр выдачи сертификатов Работа с цифровыми объектами Работа с gridftp ... Выдача цифровых сертификатов Клиент Работа с цифровыми сертификатами Участник ННС (виртуальная научная организация) Работа с цифровыми объектами Работа с цифровыми сертификатами Работа с gridftp Участник ННС (виртуальная научная организация) Клиент Регистрация ВО Цифровой объект ЦО ЦО Grid-кластер (Site) Grid-кластер (Site) Цифровая библиотека 20.07.2015 12 Полномасштабное распределенное хранилище данных национальной нанотехнологической сети Управление цифровыми объектами в РСД (продолжение) Работа с базами данных в РСД Запрос Данные Средства интеграции цифровой библиотеки с СУБД Запрос SQL Server Первый вариант ... IBASE Запрос Postgre SQL Данные Облако приложений Клиент Запрос Запрос SQL Server Запрос Данные ... Цифровая библиотека IBASE Данные Oracle В РСД содержится вся информация о базах данных (БД) ННС, реплики БД и условия доступа к БД. Пользователь, используя эту информацию, через ННС соединяется с нужным сервером базы данных, используя клиент БД. 20.07.2015 MySQL Данные Данные Запрос Файловая система Данные Данные Запрос Метаданные Запрос Данные Поиск данных Клиент Цифровая библиотека Postgre SQL Данные Работа с цифровыми объектами Данные MySQL Данные Запрос Участник ННС (виртуальная научная организация) Работа с gridftp Запрос Работа с цифровыми объектами Работа с цифровыми сертификатами Работа с gridftp Данные Файловая система Работа с цифровыми сертификатами Запрос Участник ННС (виртуальная научная организация) Данные ... Oracle Данные ... Второй вариант Хранилище данных содержит специальные «облачные» приложения (сервисы) работы с базами данных (БД) ННС, располагающимися в РСД. Цифровая библиотека играет роль «посредника» между БД и соответствующим приложением. 13 Полномасштабное распределенное хранилище данных национальной нанотехнологической сети Результаты работы В результате выполнения работы пользователь получает масштабируемое прозрачное хранилище гетерогенных данных с гарантированным качеством сервиса. В полномасштабном распределенном хранилище данных обеспечивается требуемый уровень защиты, сохранность данных, необходимое количество реплик, высокая скорость доступа к данным и унифицированный механизм обмена данными разного типа (файлы, таблицы, массивы, базы данных и т.д.). Хранилище совместимо с вычислительными сервисами grid-инфраструктуры и поддерживает долговременное хранение, поиск и удобный доступ к данным. Полномасштабное распределенное хранилище управляет жизненным циклом данных, включая создание материалов, передачу, сохранение и доступ ко всем цифровым материалам. 20.07.2015 14 Спасибо за внимание Докладчик – Владимир Михайлович Соловьев Е-Mail: [email protected] Телефон: (8452) 210 660 20.07.2015 15