Transcript Document

«Разработка метода семантической интеграции
информации в сфере государственного и
муниципального управления»
Ломов Павел Андреевич
Институт информатики и математического моделирования
технологических процессов КНЦ РАН, г. Апатиты
Актуальность темы
 Формирование электронного государства;
 Развитие модели государственного управления, ориентированная на
клиентов, целью которой является предоставления гражданам
комплексных персонализированных услуг, приспособленных к их
потребностям, через единую точку доступа;
 Применение подхода, ориентированного на проблему требует
наличия интегрированного представления всей информации, так или
иначе связанной с предметной областью.
15.09.09
Ломов Павел Андреевич
2
Цели и задачи
 Целью работы является разработка метода интеграции данных, моделей
информационных систем и программных средств, позволяющих производить
интеграцию информации на основе ее семантики с учетом особенностей
предметной области.
Для достижения поставленной цели необходимо решить следующие задачи:
1. Проведение анализа современных систем, методов и средств
информационной интеграции как в рассматриваемой предметной области
так и в других предметных областях;
2. Разработка модели предметной области государственного и муниципального
управления;
3. Разработка
моделей
процессов
взаимодействия
компонентов
интеграционной системы
в ходе выполнения задач по обработке
интегрированной информации;
4. Создание прототипов компонентов информационной системы, в виде
комплекса программ для проведения экспериментов и оценки полученных
результатов.
15.09.09
Ломов Павел Андреевич
3
Обзор существующих подходов к
семантической интеграции
Централизованные подходы (использующие одну онтологию):
 Gene Ontology (GO) (http://www.geneontology.org) — проект Gene
Ontology Consortium.
 TAMBIS (Transparent access to multiple bioinformatics information
sources) — онтология ПО молекулярной биологии и биоинформатики
Децентрализованные подходы:
 Ontograve. Dejing D., LaPendu P. – Проект интеграции баз
гетерогенных БД
Гибридные подходы:
 MESA(Mediator Specification Assistant) H. Wache Th. Scholz H.
Stieghahn
 BUSTER(Bremen University Semantic Translation for Enhanced
Retrieval) (Visser U., Stuckenschmidt H., Wache H., Vogele U)
15.09.09
Ломов Павел Андреевич
4
Требования к системе интеграции
К общим требованиям можно отнести:
 обеспечение доступа к информации, хранящейся в информационных
ресурсах, входящих в пространство интеграции через единую точку
доступа;
 возможность включения новых информационных ресурсов в
пространство интеграции без существенных изменений конфигурации
компонентов системы
К специфическим требованиям можно отнести:
 Проведение распределенного поиска для получения совокупной
информации об объекте предметной области из различных источников;
 Выявление семантических противоречий в информации, содержащихся
или вносимых в информационные источники;
 Сохранение прав доступа установленных в интегрируемом
информационном источнике к определенным информационным
элементам;
 Совместное изменение зависимой информации расположенной в
различных источниках и описывающей один и тот же объект ПО.
15.09.09
Ломов Павел Андреевич
5
Существующие подходы к интеграции в
области ГиМУ
 Система СПУН (Л. Ф. Марин, Е.В. Бойченко) направленна на
решение задачи получения полной, достоверной и актуальной
информации о гражданах Российской Федерации.
 Система «СУПРЕМА» (авторы В.А. Виттих, Д.В. Волхонцев,) Целью
является повышение качества и эффективности управления в
регионе для реализации потребностей и возможностей граждан и
обеспечения устойчивого социально-экономического развития
региона. Главными отличиями данного подхода является
применение мультиагентных технологий, а также перехода от
систем, основанных на данных, к системам, базирующимся на
знаниях.
15.09.09
Ломов Павел Андреевич
6
Структура системы

Пользовательский интерфейс
Система выполнения пользовательских запросов
Семантическое хранилище
Агент
А

Агент
B

Онтология ресурса А
Информационный
ресурс А
15.09.09
Онтология ресурса B
Информационный
ресурс B
Ломов Павел Андреевич

Система выполнения пользовательских
запросов
• Отбор агентов в семантическом
хранилище для выполнения задач;
• Декомпозиция запросов на подзапросы,
адресованные агентам;
• Извлечение результатов задания для
передачи их пользовательскому
интерфейсу;
Семантическое хранилище
• Хранение разделяемого тезауруса;
• Взаимообмен информации между
агентами,
• Хранение информацию об агентах,
задачах и результатах;
Агент:
• Выполнение задач по обработке
информации связанного с ним ресурса;
Онтология информационного ресурса:
• Описывает модели объектов,
описываемых в информационном
ресурсе
7
Модель предметной области
МПО должна позволять решать следующие задачи:
 Обеспечение семантической интеграции информации
информационных ресурсов;
 Проведение распределенного поиска для получения совокупной
информации об объекте предметной области из различных
источников;
 Выявление семантических противоречий в информации,
содержащейся или вносимой в информационные источники;
 Задания прав доступа к определенным информационным
элементам;
 Обеспечение достаточной простой модификации модели;
 Идентификация сервисов, осуществляющих выполнения запросов на
получение информации об определенных объектах предметной
области.
15.09.09
Ломов Павел Андреевич
8
Модель предметной области
МПО разбивается на 2 уровня, на каждом из которых решаются
следующие задачи:
 На уровень источника – обеспечивается формальное выражение
семантики, осуществляется проверка непротиворечивости
информации, описывающей объекты ПО;
 На уровень интеграции – обеспечивается выполнение
распределенных операций, сопоставляются модели
информационных объектов различных ресурсов, выполняется
декомпозиция запросов и их маршрутизация, включение новых
информационных моделей, содержащихся в добавляемом
информационном ресурсе.
15.09.09
Ломов Павел Андреевич
9
Формальные представления элементов
тезауруса
Элемент тезауруса типа «Объект»
Элемент тезауруса типа «Связь»
Элемент тезауруса типа «Свойство»
15.09.09
Ломов Павел Андреевич
10
Использование общих атрибутовидентификаторов
 Информационные ресурсы могут содержать общие универсальные
идентификаторы, которые имеют место быть в реальном мире.
 Наличие общего идентификатора позволяет представить совокупную
информацию об объекте реального мира.
 Специфика ПО заключается в том, что основные субъекты и объекты имеют
определения, которые в той или иной форме закреплены в различных
законодательных актах.
 Данные субъекты и объекты имеют также и регламентированные наборы
основных атрибутов, в том числе и идентификационных.
Исходя из этого можно проводить определение формальных моделей
информационных объектов и их обобщение в базовых классах на основании
их определения в нормативном акте или классификаторе.
15.09.09
Ломов Павел Андреевич
11
Методика разработки формальной
онтологии информационного ресурса
1. В зависимости от предпочитаемого инженером общего подхода
(нисходящего или восходящего) выбираются либо «Свойства»
тезауруса, либо «Объекты» соответствующие базовым классам.
2. В случае нисходящего подхода: базовые классы в тезаурусе,
конкретизируются в подклассах, которые желательно описывать с
использованием «Свойств», объявленных в тезаурусе.
3. В случае восходящего подхода:
 выделяются наборы атрибутов, значения которых содержаться в
информационных ресурсах;
 наборы атрибутов заменяются на имеющиеся в тезаурусе в
случае их эквивалентности;
 с помощью заданных атрибутов определяются концепты,
соответствующие объектам, описываемые в информационном
ресурсе.
4. Определить логические ограничения для формального выражения
дополнительной семантики.
15.09.09
Ломов Павел Андреевич
12
Часть тезауруса
15.09.09
Ломов Павел Андреевич
13
Онтология ЗАГС
Использование общезначимого атрибута
позволяет получать информацию об
объекте из других источников, сравнивать с
имеющейся, а также изменять зависимую
информацию.
15.09.09
Ломов Павел Андреевич
14
Отображения онтологий в тезаурус
 Основная идея: создание новой иерархии терминов для
конкретизации общего понятия или добавление новой иерархии на
какой-либо уровень в уже существующую иерархию для определения
новой конкретизации.
 Определение семантической метрики, характеризующей степень
сходства понятий на основании оценки:
• сходства символических имен терминов ;
• структурного положение понятия в онтологии;
• степени сходства множеств необходимых и достаточных
атрибутов .
 Алгоритм позволяет избежать семантических конфликтов при
объединении онтологий и создать интегрированную онтологию,
универсальную в смысле требований к точности семантического
соответствия терминов
15.09.09
Ломов Павел Андреевич
15
Текущие результаты
 Задана концептуальная модель ПО в виде тезауруса;
 Разработан алгоритм отображения онтологий источников в тезаурусе
с использованием эвристических оценок семантической близости
концептов;
 Для решения задач, требовательных к точности представлена
методика использования общезначимых атрибутов;
 Представлена методика определения онтологии отдельного
информационного источника с использованием общезначимых
атрибутов.
15.09.09
Ломов Павел Андреевич
16
Направления дальнейшей работы
 Разработка прототипов онтологий, определяющих информационные
объекты, описанные в информационных источниках учреждений
государственного и муниципального управления;
 Разработка языка запросов между агентами-интеграторами на
основе языка SPARQL;
 Определение методики ограничения доступа к информационным
объектам отдельных источников, а также процедур аутентификации и
идентификации агентов;
 Дальнейшее выявление общезначимых атрибутов, заданных в
юридических документах и классификаторах и внесение их в
тезаурус;
15.09.09
Ломов Павел Андреевич
17
Спасибо за внимание!
15.09.09
Ломов Павел Андреевич
18
Пакет OntologyIntegrator – диаграмма классов
15.09.09
Ломов Павел Андреевич
19
Пакет OntologyIntegrator – состав
15.09.09
Ломов Павел Андреевич
20
Онтология семантического хранилища
им
еетЗначениеД
ляП
оиска- принадлеж
итКзадаче
присутствуетВ
связи
С
вязь
присутствуетВ
связи
Значение
Задача
им
еетЗначение- являетсяС
войством
им
еетВ
торойО
бъект
им
еетВ
торойО
бъект
вы
звалоЗадачу- вы
званоО
бъектом
им
еетП
ервы
йО
бъект
предоставляет- предоставленно
С
войство
им
еетП
ервы
йО
бъект
вы
звалоЗадачу- вы
званоО
бъектом
О
бъект
А
гент
им
еетС
войство- принадлеж
итО
бъекту
предоставляет- предоставленно
им
еетЗадачу- задачаД
ля
предоставляет- предоставленно
15.09.09
Ломов Павел Андреевич
21
Использование атрибутов-идентификаторов
 Решение задачи рег-го учета гр-н РФ
предполагает сбор, хранение,
актуализацию и изменение
первичных рег. данных о гражданах
 Функцию сбора обычно выполняют
паспортно-визовые службы органов
внутренних дел и органов ЗАГС.
 Атрибута «номер российского
паспорта» уникален. Это позволяет
использовать его в поисковых
шаблонах для идентификации
семантически эквивалентных
объектов в разных информационных
ресурсах.
 Для общего использования
идентификаторов определим
базовые классы онтологии верхнего
уровня – «Персона» и «Документ».
15.09.09
Ломов Павел Андреевич
22
Использование атрибутов-идентификаторов
Часть онтологии ЗАГСа
 К атрибутам базового класса
«Персона» добавляется
атрибут «имеетСвОБраке»,
значением которого
является ссылка на
экземпляр класса
«Свидетельство о браке»,
что в свою очередь
позволяет определить номер
паспорта Российской
Федерации супруга. Затем с
его помощью этого номера,
получить информацию из
других источников.
15.09.09
Ломов Павел Андреевич
23
Использование атрибутов-идентификаторов
Часть онтологии МВД
 В данном случае базовый
класс «Персона»
дополняется двумя
дополнительными
атрибутами (выделены
серым), значения которых
содержаться в контенте
информационного ресурса.
15.09.09
Ломов Павел Андреевич
24
Положительные стороны системы
 Возможность добавления новых информационных ресурсов в
пространство интеграции;
 Выбор информационного ресурса для поиска, релевантного
пользовательскому запросу;
 Отсутствие ограничений на определение новых понятий в частных
онтологиях;
 Проведение результативного поиска с использованием атрибутаидентификатора, с получением в результате целостного
информационного представления объекта поиска.
15.09.09
Ломов Павел Андреевич
25
Направления дальнейшей работы
 Более глубокое изучение ПО государственного и муниципального
управления для построения онтологий информационных ресурсов;
 Разработка функций оценки семантической близости терминов
различных онтологий;
 Определение основных принципов взаимодействия агентов между
собой;
 Разработка принципов обеспечения контроля доступа к информации
агентами.
15.09.09
Ломов Павел Андреевич
26
Список публикаций
1. Ломов П.А., Шишаев М.Г. Интеграция данных на основе онтологий для
обеспечения информационной поддержки управленческих решений // VII-ая
Всероссийская школа-семинар «Прикладные проблемы управления
макросистемами» (Апатиты, 31 марта-4 апреля 2008 г.)
2. Ломов П. А., Шишаев М. Г. Интеграция семантически связанных
информационных ресурсов на основе онтологий для эффективного
информационного обеспечения рационального природопользования //
Глубокая переработка минеральных ресурсов: Сборник материалов IV
школы молодых ученых и специалистов «Сбалансированное
природопользование» (6-8 ноября 2007 г.)
3. Ломов П. А. Проблемы и решения интеграции гетерогенных источников
данных в системах информационной поддержки регионального развития //
Тезисы докладов VII Региональной аспирантско-студенческой научной
конференции ИНЖЭКОН 2008 г.
4. Ломов П. А. Использование онтологий для интеграции гетерогенных
источников данных //Сборник трудов XI-ой Межрегиональной научнопрактической конференции КФПетрГУ 2008 г.
15.09.09
Ломов Павел Андреевич
27
Список публикаций
1. Ломов П.А., Шишаев М. Г., Интеграция семантически связанных
информационных ресурсов на основе онтологий // Сборник научных
трудов ИИММ КНЦ РАН 2007 г.
2. Ломов П.А., Шишаев М. Г., Использование базовых классов для
установления смысловой эквивалентности в семантически
гетерогенных информационных ресурсах // Сборник научных трудов
ИИММ КНЦ РАН 2008 г. (в печати)
15.09.09
Ломов Павел Андреевич
28
Предполагаемая научная новизна
 Представлен алгоритм автоматической интеграции онтологий с
использованием разделяемого тезауруса;
 Предложена оценка семантической метрики, характеризующей
степень сходства понятий на основании:
• сходства символических имен терминов;
• структурного положение понятия в онтологии;
• степени сходства множеств необходимых и достаточных
атрибутов;
 Применение базовых классов и атрибутов-идентификаторов, которые
позволяет однозначно определять семантически эквивалентные
информационные элементы в гетерогенных информационных
ресурсах.
15.09.09
Ломов Павел Андреевич
29
Технологии Semantic Web
 язык XML (Extensible Markup Language) - расширенный язык
разметки, используется в качестве универсального языка
обмена данными;
 язык RDF (Resource Definition Framework) является
подмножеством языка XML и предоставляет удобную среду
формализации метаданных и сведений о контексте.;
 язык онтологий OWL (Web Ontology Language) - общий набор
терминов, которые используются для описания и
представления объектов в Интернет;
 язык SPARQL (SPARQL Query Language for RDF) применяется
для выполнения запросов к RDF респозиториям и,
одновременно, протокол передачи информации RDF.
 SPARQL/Update, is a language to update RDF, similar to SPARQL
which is used to query RDF.
15.09.09
Ломов Павел Андреевич
30
Тезаурус
 Это особая разновидность словарей общей или специальной
лексики, в которых указаны семантические отношения (синонимы,
антонимы, паронимы, гипонимы, гиперонимы и т . п.) между
лексическими единицами.
 Тезаурусы, особенно в электронном формате, являются одним из
действенных инструментов для описания отдельных предметных
областей.
 Тезаурус позволяет выявить смысл не только с помощью определения,
но и посредством соотнесения слова с другими понятиями и их
группами, благодаря чему может использоваться в системах
искусственного интеллекта.
15.09.09
Ломов Павел Андреевич
31
Семантическая сеть
 Это информационная модель предметной области, имеющая
вид ориентированного графа, вершины которого
соответствуют объектам предметной области, а дуги (рёбра)
задают отношения между ними.
 Объектами могут быть понятия, события, свойства, процессы.
Таким образом, семантическая сеть является одним из
способов представления знаний.
 В семантической сети роль вершин выполняют понятия базы
знаний, а направленные дуги задают отношения между ними.
Таким образом, семантическая сеть отражает семантику
предметной области в виде понятий и отношений.
15.09.09
Ломов Павел Андреевич
32
Онтология
 O=<T,R,F> где:
• Т - термины предметной области, которую описывает онтология O;
• R - отношения между терминами заданной предметной области;
• F - функции интерпретации, заданные на терминах и/или отношениях
онтологии O.
15.09.09
Ломов Павел Андреевич
33
Отношение классификации (ISA)
 Отношение между объектом и множеством, обозначающим, что
объект принадлежит этому множеству, называется
отношением классификации (ISA).
 Связь ISA предполагает, что свойства объекта наследуются
от множества. Обратное к ISA отношение называется —
«Example», или по-русски, «Например».
 «IS A» (наиболее точный русский перевод - «суть», «все зайцы
суть млекопитающие»).
 Иногда это отношение именуют также MemberOf или подобным
образом.
15.09.09
Ломов Павел Андреевич
34
Отношение гипонимии (AKO)
 Отношение между надмножеством и подмножеством
определяет, что каждый элемент первого множества входит и
во второе (выполняется ISA для каждого элемента), а также
логическую связь между самими подмножествами: что первое
не больше второго и свойства первого множества
наследуются вторым.
 AKO — «A Kind Of» («разновидность»)
 Элемент подмножества называется гипонимом, а
надмножества — гиперонимом
15.09.09
Ломов Павел Андреевич
35
Отношение меронимии (HasPart)
 Отношение описывает части/целые объекты;
 Мероним — это объект, являющийся частью для другого;
 Холоним — это объект, который включает в себя другое.
15.09.09
Ломов Павел Андреевич
36
Термин предметной области
15.09.09
Ломов Павел Андреевич
37
Свойство объекта
15.09.09
Ломов Павел Андреевич
38
Значение свойства
15.09.09
Ломов Павел Андреевич
39
Задача для агента
15.09.09
Ломов Павел Андреевич
40
Агент
15.09.09
Ломов Павел Андреевич
41