Информационные ресурсы и Интернет-технологии для наук об окружающей среде Фазлиев А.З. Институт оптики атмосферы СО РАН, Томск Содержание 1.

Download Report

Transcript Информационные ресурсы и Интернет-технологии для наук об окружающей среде Фазлиев А.З. Институт оптики атмосферы СО РАН, Томск Содержание 1.

Информационные ресурсы и
Интернет-технологии для наук об
окружающей среде
Фазлиев А.З.
Институт оптики атмосферы СО РАН, Томск
Содержание
1. Данные атмосферных наук
2. Агентные технологии
3. Семантический Интернет
4. Построение Интернет ресурсов
Принципы обращения с данными
1. Данные - критический ресурс, который необходимо сохранять,
защищать и организовывать доступ для всех пользователей и в
любое время суток.
2. Значимость научных данных - в их использовании.
3. Архив данных должен быть расширяемым, вместительным и
доступным.
4. Адекватная документация, или метаданные, являются
необходимыми для преодоления барьеров в использовании
научных данных. -> Semantic Web
5. Приемлемая и эффективная стратегия архивирования данных
основана на использовании распределенных архивов,
управляемых теми кто обладает предметным знанием о данных. > GRID
Наблюдаемые данные
в физических науках
Данные наблюдений включают в себя числовую информацию
(печатную и электронную), графический материал и словесное
описание. Записи существуют на бумаге, пленке (микрофиши),
магнитные диски, цифровая оптическая среда.
При проведении больших проектов устанавливается единый формат
данных (World Ocean Circulation Experiment, World Climate Research
Project, NASA’s Mission to Planet Earth).
В небольших проектах не обращают внимание на форматы данных,
т.к. исследователи планируют и осуществляют работу со своими
данными в узком кругу научного сообщества.
Проблема состоит в такой подготовке сложно структурированных
научных данных при которой их структура и интерпретация доступна
всем уровням пользователей. Структура данных должна допускать
все возможные пути полного восстановления информации о
получении, архивировании и обработке данных.
Объемы некоторых наборов данных
в атмосферных науках
Тип набора данных
Прямые методы
атмосферных наблюдений
Атмосфера
Поверхность суши
Поверхность океана
Наблюдения GARP
США поверхность
Избранное (глобальное)
Базовый анализ NMC
Расширенный анализ NMC
NCAR наблюдения
Расширенный анализ
ECMRWF
Спутники (избранное)
Геостационарные NOAA
Полярные NOAA
TOVS
AVHRR
EOS
Радарные данные США
Область 30-60 км
NEXRAD
Комментарий
Годы
Объем
2 раза в день, (1000 станций)
8, (7500)
8, (40000 набл. в день)
поверхн., атмосфера (не
спутники)
1, (9000)
1962-1993
1967-1993
1854-1993
1978-1979
1990-1993
25Гб
60Гб
15Гб
10Гб
15Гб
2, (4Гб в год)
2, (19)
1945-1993
1990-1993
4, (8)
1985-1993
50Гб
58Гб
8Гб
76Гб
48, видимый и ИК
1978-1993
1978-1993
130Тб
720Тб
5Тб
88Тб в год
19981973-1991
1997-
1Гб
400Тб
Данные атмосферных наук
•
Большая часть атмосферных данных меняется динамически,
растет и модифицируется. В силу природы погоды временные
ряды наблюдений никогда не будут “полными”. Экспедиционные
программы заканчиваются конечным набором данных.
•
Архивы глобальных данных. Наилучшее положение в США.
Лучший набор данных с 1950-х. Тем не менее, многие значимые
данные других стран недостижимы для ученых США (и в
некоторых случаях недостижимы также для ученых
представляющих эти страны).
•
Метеорологические и другие атмосферные данные используются
для разных целей в разных временных масштабах. Выделим три
из них:
1. текущие (реальный масштаб времени)
2. недавнее прошлое или коротко-временная ретроспектива
3. ретроспектива или отдаленное прошлое.
Информационные технологии для
исследований и сотрудничества
Статистика. Научная информация удваивается за 12 лет и 90%
всех ученых живут в настоящее время.
Компьютеры, коммуникации, информационные технологии стали
необходимым инструментом. Требования для сбора и
организации доступа к массивам данных, трудности развития и
работы с комплексными моделями данных, необходимость
вычислений (достигаемых с помощью компьютерных систем
высокой производительности или за счет распределенной сети
вычислений) и растущее понимание того, что решение многих
научных проблем находится на стыке научных дисциплин ставит
задачи развития информационных технологий в науке.
Две крайности – знать все больше и больше о все меньшем и
меньшем или знать все меньше и меньше о все большем и
большем.
Центры распределенных данных (DAAC)
• Alaska Synthetic Aperture Radar (SAR) Facility (ASF) DAAC Polar processes and SAR
products
• EROS Data Center (EDC) Land Processes DAAC Land processes
• Goddard Space Flight Center (GSFC)
DAAC
Upper atmosphere, global biosphere, atmospheric dynamics, and geophysics
• Jet Propulsion Laboratory (JPL) Physical Oceanography
DAAC
(PO-DAAC) Physical oceanography
• Langley Research Center (LaRC)
DAAC
Radiation budget, tropospheric chemistry, clouds, and aerosols
• National Snow and Ice Data Center (NSIDC)
DAAC
Snow and ice, cryosphere (non-SAR) and climate
• Oak Ridge National Laboratory (ORNL) DAAC Biogeochemical dynamics
• Socioeconomic Data and Applications Center (SEDAC) at the Consortium for
International Earth Science Information Network (CIESIN) Human interactions in the
environment
• Global Hydrology Resource Center (GHRC) at Marshall Space Flight Center
Hydrological cycle
• National Climatic Data Center (NCDC) of National Oceanic and Atmospheric
Administration (NOAA) Climate and weather
• National Geophysical Data Center (NGDC) of NOAA
Solid Earth geophysics, marine geology and geophysics, solar terrestrial physics, and
paleoclimatology
• National Oceanographic Data Center (NODC) of NOAA Oceanography
• Satellite Active Archive (SAA) of National Oceanic and Atmospheric Administration
(NOAA) Satellite remote sensing
EOS DIS
• Создатели ECS строят ИС для сбора и обработки данных и
связи всех данных DAAC
• Инструментальные и научные команды развивают
алгоритмы для обработки данных и генерации продуктов
данных
• DAAC обрабатывает и обеспечивает сервисы пользователя
• EOSDIS устанавливает требования для ИС и координирует
систему DAAC
Стоимость DAAC
Бюджет EOSDIS составляет 2.000.000.000$ на 10 лет.
30% каждый год тратится на ПО, аппаратное обеспечение и
зарплату (60.000.000$)
Остальное тратится на получение данных и оплату
коммуникаций
Goddard Space Flight Center
Основной инструмент - MODIS
DAAC cоздан в 1993
Атмосферные науки и гидрология; данные по химии верхней
атмосферы, глобальной биосферы , атмосферной динамики и
климатологии
Содержит 4Тб исторических данных и предполагается
получение 2000Тб данных с платформы АМ-1
Бюджет 1997г. 9.200.000$
Goddard Space Flight Center
Источники данных
•TOMS - данные спутников Nimbus и Метеор (1978-1994)
•UARS - результаты измерений 9 разных инструментов с 1991 - 1999
•TIROS, TOVS - 1-D данные 1978 - 1994
•SeaWiFS -локальные, региональные и глобальные данные
•GEDEX - локальные, региональные и глобальные данные за 1980-е
•ISLSCP - глобальные данные с разрешением 1гр. (1987-88)
•CZCS - данные с разрешением 1-, 4-, и 20-км. (1978-1986)
•AVHRR - данные с разрешением (1981-1994)
•DAO - данные с разрешением 2 и 2.5 гр. (1985-1993)
•MODIS, MAS - данные на магнитной ленте (9 компаний)
•TOGA-COARE - данные спутниковых, самолетных и наземных
измерений (1992-1993)
•Interdisciplinary Climatology Data Collection - ежемесячные данные с
разрешением 1 на 1 гр. (суша, океан и атмосфера)
Langley Research Center
Организован в 1989 г.
Построена собственная ИС ориентированная на управление данными
CERES.
Данные по тропосферной химии, радиационному бюджету
(дистанционное зондирование и полевые измерения), облакам и
аэрозолям .
Объем данных - на начальной стадии 90 Гб., в 1999 - 3.3Тб,
после окончания эксперимента (CERES/TRMM) 155Тб, (CERES, MOPITT,
MISR) - 1106Tб.
Бюджет 7.900.000$ (1998)
Формат данных - HDF и другие
Langley Research Center
Источники данных
•ACRIM II - данные по солнечному излучению (с 1991)
•ERBE - радиационный бюджет, глобальные данные за сутки и месяцы (с 1989)
•CERES - облака и радиация (с 1986)
•Nimbus-7 ERB - глобальные данные (с 1975 по 1978)
•SRB (Surface Radiation Budget) - радиационный бюджет (с 1985 по 1988)
•SSE (Surface Solar Energy) - данные (с 1985 по 1988)
•ISCCP - глобальные суточные данные (с 1983 по 1995)
•FIRE - региональные суточные данные (1986, 1987, 1991, 1992)
•SUCCESS - самолетные и наземные измерения (1996)
•ARB - данные по аэрозолю (с 1982)
•SAGE I, II - данные по аэрозолю и газам (1979-1981, 1984•SAM II - данные с полярных областей (с 1978 по 1993)
•GTE - региональные данные (1988, 1990, 1992, 1996)
•MAPS - данные с полета челноков (1984 - 1994)
•NVAP - глобальные данные по водяному пару (1988 - 1992)
•…………...
)
EROS Data Center
Центр создан в 1992 г.
Направления : биология, гидрология, лимнология и экология
Данные по процессам происходящим на поверхности и
вблизи ее
В настоящее время данных - 9Тб, предполагается 50Тб в год
от Landsat 7 и 80 - 145 Тб в год с платформы AM - 1.
Бюджет 13.700.000$ в 2000г.
Формат данных - HDF
EROS Data Center
Источники данных
AVHRR - глобальные и региональные данные с
разрешением 1.1 км (с 1992)
SIR-C - 6 часовые глобальные данные полета SS (1994)
GNOPO30 - данные 30*30 угл. секунд
Landsat Pathfinder - сезонные глобальные региональные
данные (1970 - 1999)
Aircraft Scanners - ежемесячные локальные данные (с
1987)
References
1. 1993 Review of the World Center-A for Meteorology and the National
Climatic
Data Center, National Academy Press, Washington, D.C., 1994
2. 1993 Data Forum: A Review of an Implementation Plan for U.S. Global
Change Date and Information Systems, National Academy Press, 1994
3. Preserving Scientific Data On Our Physical Universe, National Academy
Press, Washington, D.C. 1995
4. A Data Foundation For The National Spatial Data Infrastructure, National
Academy Press, 1995
5. Supporting Research and Data Analysis in NASA's Science Programs.
Engines for Innovation and Synthesis, National Academy Press,
Washington, D.C., 1998
6. National Collaboratories: Applying Information Technology for Scientific
Research, National Academy Press, 1999
7. Review of NASA's Distributed Active Archive Centers, National Academy
Press, 1999
8. Global Environmental Change: Research Pathways for the Next Decade,
National Academy Press, 1999
9. The Atmospheric Sciences Entering the Twenty-First Century, National
Academy Press, Washington, D.C., 1999
http://badc.nerc.ac.uk
Dataset Index
Airborne Antarctic Ozone Experiment (AAOE-87) , Airborne Arctic
Stratospheric Expedition (AASE), Airborne Arctic Stratospheric
Expedition II (AASE II), Airborne Southern Hemisphere Ozone
Experiment (ASHOE), Along Track Scanning Radiometer (ATSR-I) ,
Atmospheric Chemistry studies in the Ocean Environment (ACSOE) ,
Climatology Interdisciplinary Data Collection (CIDC) , Cloud & Water
Vapour Experiment for Model Comparisons at Chilbolton (CWAVE) ,
Cloud Archive User Service data (CLAUS) , CLOUDMAP2 ATSR cloud
products , Coupled Ocean Atmosphere and European Climate
(COAPEC) , Cryogenic Limb Array Etalon Spectrometer (CLAES L3) ,
Earth Radiation Budget Experiment (ERBE) , ECMWF 15-year reanalysis data (ERA-15), ECMWF 40-year re-analysis data (ERA-40),
ECMWF Trajectories, European Space Agency -"Measurement of H2O
Absorption Cross-Sections“, ……
Дополнительная информация
Unidata Program Center
http://my.unidata.ucar.edu/
DLESE (Digital Library for Earth System Education)
http://www.dlese.org
Alexandria Digital Library Geospatial Network
http://www.alexandria.ucsb.edu/
_____________________________________________________
Е.Д.Вязилов Информационные ресурсы о состоянии
природной среды, М., Эдиториал УРСС, 2001, 312с.
"The bane of my existence is doing things that I know the computer could
do for me."
“Моё существование отравляет выполнение той работы, которую мог
бы за меня сделать компьютер.”
Dan Connolly, The XML Revolution
Программные Агенты
1. Что такое программный агент? (software
agent)
2. Типы программных агентов
3. Роли программных агентов
4. Будущее агентов
Pattie Maes, MIT Media Group
Что такое агент?
• Бесполезный термин
• “Агент” теоретическая концепция из ИИ
• Вычислительная система, которая
1. долго живет
2. имеет цели, сенсоры и
исполнительные органы
3. автономно решает какие действия
принять в текущей ситуации для
выполнения цели за минимальное
время
Типы агентов
1.
2.
3.
4.
Автономные роботы
Синтетические характеры
Помощники эксперта
Программные агенты, “знаботы”
(knowbots), “прогботы” (softbots)
Что такое программный агент?
Программный агент – это один из типов агентов
помогающих пользователю при решении компьютерных
проблем.
Чем агент отличается от прочего
программного обеспечения?
• Персонифицирован, ориентирован на
определенную цель
• Инициативен
• Автономен и долгоживуч
• Адаптивен
Зачем нужны программные агенты?
• Большинство задач решаются на
компьютерах
• Огромное количество
неструктурированной информации
• Большинство пользователей не
подготовлены
• Переход от прямой манипуляции к
непрямому управлению
Прямая манипуляция
Задачи, решаемые этим способом
- замкнутый, статический, относительно
маленький и структурированный
информационный мир
Используемые методы
- визуализация объектов
- действия на объекты в интерфейсе
соответствующего действиям над
реальными объектами
- ничего не происходит без действий
пользователя
Непрямое управление/ агенты
Задачи, решаемые этим способом
- открытый, динамический, огромный и
неструктурированный информационный
мир
Используемые методы
- пользователь делегирует агенту свои
интересы, привычки и предпочтения
- агенты делают предположения и/или
действуют от имени пользователя.
Действие происходит во времени
независимо от того активен или нет
пользователь
Критика программных агентов
(Lanier, Schneiderman)
•Хорошо продуманный интерфейс всегда
предпочтителен
У меня нет желания решать задачу
самостоятельно
• Агенты делают пользователя чайником
Каждый имеет право отказаться от услуг агента
• Агенты никогда не будут интеллектуальными
и не должны быть они получают знания от
пользователя
• Агенты не существуют
Они уже есть
Программный агент
=?
экспертная система
Наивный пользователь
- агенты -> “средние” пользователи; экспертные системы
-> пользователи – эксперты
Задачи
- агенты -> типовые задачи; экспертные системы ->
комплексные задачи
Персонификация
агенты -> разные действия; экспертные системы -> одни
и те же
Активность и автономия
агенты -> самостоятельны; экспертные системы ->
пассивны
Адаптивность
агенты -> обучаемы и изменяемы; экспертные системы ->
остаются неизменными
Типы программных агентов
Параметры, по которым они различаются:
Суть поставленной задачи
- работать с пользователем или в качестве
фоновой программы?
Природа и источник “интеллекта”
- Как агент построен? Кто его программирует?
Мобильность/локальность
- Где он находится? Может ли двигаться?
Выполняемые роли
- В каких задачах он может помочь
пользователю?
Суть поставленной задачи
Агенты пользователя: помогают
пользователю, знают интересы, привычки
и предпочтения, могут действовать по
поручению
- например, редактор личных новостей,
личный гид в Интернете, личный торговый
агент и т.д.
Сервисные агенты: решают более общие
задачи в фоновом режиме
- веб-индексирование, поиск информации,
балансирование загрузки телефонной сети
Природа “интеллекта”
Программируется пользователем –
пользователь непосредственно обеспечивает правила
и критерии
- наиболее простым образом
- не очень замысловато
- в соответствие с профессиональной подготовкой
- коммерчески оправдано
На основе искусственного интеллекта –
создается традиционной основанной на знаниях
техникой ИИ
- очень сложные правила
- замысловатые
- программируются инженером по знаниям
- даже коммерчески не реализовано
Программные агенты пользователя
Агенты, основанные на знаниях
Природа “интеллекта”
Обучаемые агенты – “программы сами по
себе”
Образцы действий пользователя
- средней сложности
- “интеллектуалы” в ключевых областях (на
которых сосредоточены интересы
пользователей)
- появляются коммерческие версии
Обучение агента пользователем
Обучение от других агентов
За и против подходов
Программируемый пользователем агент:
+ простота настройки
+ приспосабливается к пользователю
- пользователь не может распознать
возможностей агента
- пользователь не любит программировать
- агент не адаптируется
- агент не обладает здравым смыслом
За и против подходов
Агент с искусственным интеллектом:
+ изощренный, основан на базе знаний
+ агент готов к работе без
предварительной настройки
- не приспосабливается к пользователю
- дорогое решение
- агент не адаптируется
За и против подходов
Обучаемый пользователем агент:
+ агент адаптируется
+ приспосабливается к пользователю
+ управляемая комплексность
- агенту нужно время для обучения и
переобучения
- агент копирует предшествующие образцы
- агент не обладает здравым смыслом
Какой подход лучше?
Комбинация 3 подходов:
•Дает агенту доступ к фоновому знанию,
имеющемуся в распоряжении
•Позволяет пользователю программировать
агента, особенно в начальной стадии или
после резкой смены поведения
пользователя
•Агент обучается адаптации и изменениям
SEMANTIC WEB
XML
Популярный язык документов.
Часть языка SGML.
Иногда называют "ASCII для веба".
Коммуникационная структура, семантика отсуствует.
Дерево подобная структура.
xmlns
Связывает элементы и атрибуты XML с URI.
Однозначно определяет элементы и атрибуты.
Основание для документов со многими словарями.
Пример
Пример
Принципы Semantic web
Любая вещь может иметь URI#xxx.
Словари можно объединять и со временем
заменять.
Документы описывают себя сами.
" Каждый может сказать все обо всем."
Ни одна система не знает всего.
Дизайн должен быть минимальным.
Любая вещь может иметь URI#xxx
Не употребляйте термин “Creator”.
Используйте
http://dublincore.org/2003/03/24/dces#creator”
<rdf:Property rdf:about="http://purl.org/dc/elements/1.1/creator">
<rdfs:label xml:lang="en-US">Creator</rdfs:label>
<rdfs:comment xml:lang="en-US">
An entity primarily responsible for making the content of the resource.</rdfs:comment>
<dc:description xml:lang="en-US">
Examples of a Creator include a person, an organisation, or a service.
Typically, the name of a Creator should be used to indicate the entity.</dc:description>
<rdfs:isDefinedBy rdf:resource="http://purl.org/dc/elements/1.1/"/>
<dcterms:issued>1999-07-02</dcterms:issued>
<dcterms:modified>2002-10-04</dcterms:modified>
<dc:type rdf:resource="http://dublincore.org/usage/documents/principles/#element"/>
<dcterms:hasVersion rdf:resource="http://dublincore.org/usage/terms/history/#creator004"/>
</rdf:Property>
Основа Semantic web для данных
Можно кодировать в XML
Простота и математическая
обоснованность
Это и есть Resource
Description Framework (RDF)
Описание
ресурсов
по молекуляной
спектроскопии
Уровень RDF схемы
• Минимальная модель - (thing), Class, Property
• Subproperty, Subclass
• Domain & Range
• Comments & labels
Уровень онтологии
Расширение описания метаинформации, за счет
Transitive property,
Unique,
Unambiguous,
Cardinality,
etc
Semantic web
Semantic web
Будущее Semantic web
Логика
oЯ сотрудник ИОА СО РАН.
ИОА СО РАН входит в РАН.
Сотрудники РАН имеют GET доступ к
http://www.ras.ru/Member/.
Я имею доступ к http://www.ras.ru/Member/.
Доказательство
oСписок сотрудников Института указывает на меня как на
сотрудника ИОА СО РАН.
Список институтов РАН содержит ИОА СО РАН.
ACL для http://www.ras.ru/Member/ допускает, что сотрудники
институтов РАН имеют GET доступ.
Доверие
oСписок сотрудников ИОА СО РАН подписан ключом которому
доверяет РАН для выполнения таких операций.
Сотрудникам РАН доверяется доступ к механизму контроля.
ACLs для http://www.ras.ru/Member/ установлено агентом
которому доверен доступ к механизму контроля.
Web of Trust
•Все утверждения в вебе связаны с некоторым
контекстом.
•Приложениям необходим этот контекст для
оценки достоверности утверждений.
•Машинная обработка в вебе не предполагает,
что все утверждения находящиеся в вебе
“истинны”.
•Уровень доверия оценивается каждым
приложением.
•Должен быть гибкий язык для описания
существующих систем.
Литература
1. James Hendler, Agents and the Semantic Web, IEEE Intelligent
Systems Journal, 2001, Vol. 16, No. 2, pp. 30-37
2. Юрий Волков, Метаданные для чайников
3. Ora Lassila, RDF Metadata and Agent Architectures
4. Sean B. Palmer, The Semantic Web: An Introduction
5. Tim Berners-Lee, James Hendler and Ora Lassila, The Semantic
Web
6. Eric Prudhommeaux, Presentation of W3C and Semantic Web
7. Tim Berners-Lee, Dan Brickley, Dan Connolly, Sandro Hawke,
Jose Kahan, Marja Koivunen, Eric Miller, Eric Prud'hommeaux,
Ralph Swick, Danny Weitzner, in collboration with D. Karger and
L. Stein/Olin, The Semantic Web.
(http://www.w3.org/2002/Talks/09-lcs-sweb-tbl/slide1-0.html)
Построение Интернет ресурсов
Построение
Интернет ресурсов
Построение Интернет ресурсов
Тематические приложения
Информационная система
Данные
Алгоритмы
XML- и RDF -схемы
Информационно-вычислительная система
Данные
Математические модели
Прикладные программы (С, Фортран)
XML- и RDF -схемы
Формирование пространства имен физических параметров и
расчетных величин, используемых в вычислениях
Сохранение данных пользователей на сервере и контроль их
целостности
Управление формированием меню
Сервисные приложения
Новости
Форум
Библиография
Тематические словари
Подборка интернет – ссылок
Задания и задачи
Веб - редактор
Управление контентом
Представление таблиц
Вывод графики
VIII Международная конференция по электронным публикациям "EL-Pub2003"
8 - 10 октября 2003 года, г. Новосибирск
Формирование управляющих элементов
меню
Дерево или граф?
Единое меню или разные меню с
учетом компетенции пользователя
Портал
Навигация по предметной
области
Ввод и вывод данных
Сайт
Административный сайт
Разделение по дизайну
VIII Международная конференция по электронным публикациям "EL-Pub2003"
8 - 10 октября 2003 года, г. Новосибирск
Управление данными пользователя
При проведении вычислений на сайте
необходим сервис для организации данных
пользователя.
1. Структурирование задач пользователя
2. Сохранение и модификация данных
вычислений
3. Обеспечение целостности данных
4. Сравнение результатов вычислений
однотипных задач
Ролевые функции
Системный Программист (Middleware)
Прикладные программисты
Инженер по знаниям
Дизайнер
Эксперты в предметных областях
Специалисты в предметных областях
Переводчик
Административный сайт
Создание меню
Административный сайт
Формирование контекста страницы
Административный сайт
Подключение приложения
Административный сайт
Задание прав доступа
Административный сайт
Управление данными