Онтология предметной области Data Mining

Download Report

Transcript Онтология предметной области Data Mining

Система «OntoGrid»
для построения
онтологий
Онтология - формальное
явное описание терминов
предметной области (ПрО) и
отношений между ними
(Gruber 1993)
O=<T,R,D>
Назначение онтологии
1. Системы обучения: полезно иметь в качестве
«опорного сигнала» легко воспринимаемую структуру
этой области, быстро находить ссылки на источники.
2. Поисковые системы: поиск по семантически
значимым фрагментам текстов с опорой на онтологию
ПрО.
3. Научные исследования: унификация
терминологии ПрО, автоматическое отслеживание
данных и знаний в потоке информации.
4.
Интегрирование баз данных и знаний:
установление семантической эквивалентности
фактов и понятий, сформулированных в разных
терминах.
Автоматизация разработки и
сопровождения онтологии
(проект OntoGRID)
1. Инструмент для эксперта ПрО,
строящего онтологию. Средства
распределенной разработки
2. Лингвистический процессор
Лингвистическая база
Интерфейс «семантика –
онтология»
3. Методика использования
онтологий
1 Инструмент для эксперта ПрО,
строящего онтологию
Protege
(http://protege.stanford.edu/)
Mark Musen, Stanford Medical Informatics 1992
Разработка онтологий 101: руководство по
созданию Вашей первой онтологии
Natalya F. Noy Deborah L. McGuinness
Ontolingua
Chimaera
Структура онтологии
Класс
А
Отношение
Класс
К
Слот
X1…xN Фасет
X1=0-1
X5=Да,Нет
xN-источн.
Класс
a1
Класс
a2
Объект
Oi
Класс
ki
Средства распределенной разработки
Integrated Development Enviroment (IDE)
Protégé (OWL)
Иван
ASCONT
O1
O2
Djohn
Onto-DM
Лаб№13
Admin
Двуязычный форум ОНТОЛОГИЯ
Automated
System for
Construction of
Ontologies
Лингвистический процессор
1.Блок морфологического анализа.
Блок статистического анализа текстов
Гусев В.Д., Саломатина Н.В.
2. Система семантического анализа текста.
«Визуализатор отношений» (ВизОт)
Налетов А.М., Чурикова В.А., Соколова А.Н.
Блок статистического анализа
• Назначение:
 выявление общенаучной, предметно-ориентированной
и узкоспецифичной лексики;
 формирование индикаторных словарей, отражающих
аспекты документа (целевая установка, метод решения,
полученный результат и т.п.);
 формирование системы признаков для тематической
классификации документов.
• Процедуры:
 вычисления L-граммных спектров;
 выделения устойчивых словосочетаний с учетом
морфологической и комбинаторной изменчивости;
 выявления аномалий в позиционном распределении
лексических единиц в тексте.
L-граммное представление текстов
T  T1 , T2 ,...,Tm ―
L-грамма
анализируемая группа текстов;
― цепочка из L подряд следующих
нормализованных слов.
Частотная характеристика L-го порядка группы текстов Т
есть совокупность представленных в
Т
L-грамм с указанием
частот встречаемости и распределения по отдельным текстам:
 L (T )  {L1(T ), L 2 (T ),..., LM (T )}, где Li (T )(1  i  M L ) ― пара:
L
<i-я L-грамма
xi ;
вектор вхождений L-граммы в каждый
из текстов подборки
ML
f ( x i )  ( f 1 ( x i ) f 2 ( x i )... f m ( x i )) >;
Т:
― размер словаря L-грамм;
Совместный частотный спектр группы текстов Т
есть совокупность частотных характеристик:
(T )  {1 (T ),  2 (T ),...,  L (T )} , где L (T ) ― длина максимальной
max
max
цепочки слов, общей хотя бы для пары текстов.
Фрагмент словаря аспектной лексики
(по материалам конференции «Диалог’2002»; 146 докладов)
• Аспект: целевая установка;
• Биграммы: (Fтекст.,Fабс.)
L = 2, 3
в/работа (60,110); в/статья (31,45); в/доклад (31,39);
постановка/задача (14,16); наш/исследование (10,15);
• Триграммы: (Fтекст.,Fабс.)
в/данный/работа(16,19); в/статья/рассматриваться(10,11);
в/настоящий/работа (10,10); в/рамка/проект (8,12);
в/работа/рассматриваться (7,7); в/данный/доклад (5,6);
настоящий/работа/посвящать (5,6);
данный/работа/посвящать (5,5);
в/доклад/рассматриваться (5,5);
Выделение«устойчивых»цепочек слов
«Устойчивая цепочка»
― L-грамма (L ≥ 2),
встречающаяся в большом числе разнообразных контекстов.
Неустойчивой считается цепочка, которая может быть продолжена как вправо, так и влево ограниченным числом способов.
Примеры
 устойчивых цепочек:
порядок слов; русский язык; как уже отмечалось,
таким образом; в настоящее время; один и тот же;
нетрудно видеть, что; предложение со скремблингом;
 неустойчивых цепочек:
в русском; предложение со; посторонним вход;
быть или не…
Выявление позиционных аномалий
• Гипотеза:
лексические единицы, демонстрирующие
неравномерное распределение в тексте, обычно
более значимы, чем распределенные равномерно.
• Сканирующие статистики
― эффективный аппарат для выявления позиционных аномалий:
d(n) ― длина минимального интервала,
содержащего ровно n вхождений лексической единицы λ
(2 ≤ λ ≤F(λ), где F(λ) ― частота встречаемости λ в тексте).
Распределение d(n) при гипотезе H0 (равномерность) известно.
• Применение:
• оценка информативности лексических единиц;
• построение квазирефератов текста.
Анализ текста в системе
OntoGrid
• Формализм для представления
смысла текста + алгоритмы
анализа
• База лингвистических знаний
предметной области
• Алгоритм построения
семантического представления
текста
• Интерфейс эксперта
Задачи анализа текста
• Классификация текстов
• Реферирование
• Поиск по заданным концептам
……….
• Определение реализаций элементов
онтологии в текстах
• Наполнение элементов онтологии
ссылками на тексты
• Выявление «недогруженных» и
«перегруженных элементов онтологии»
……….
Анализ текста с опорой на онтологию ПрО
Система анализа
текста (САТ)
Проекция онтологии
на ЕЯ тексты
ОНТОЛОГИЯ
Анализ текста в системе OntoGrid
ОНТОЛОГИЯ
БЛЗ ПрО
ВизОт
ЭКСПЕРТ
Текст ЕЯ
САТ
Иерархия реализаций смыслов в тексте
Наборы неэлементарных (в общем случае) словосочетаний:
понятия, отношения между понятиями
Неэлементарные словосочетания –
комбинации элементарных словосочетаний
Элементарные словосочетания –
реализации смысловых отношений:
агент, объект, признак, значение,
локализация, ….
Слова, термины
Лингвистическая база знаний
предметной области
• База реализаций отношений (БРО)
-термины
-реализации смысловых отношений
• Набор критичных фрагментов (НКФ)
наборы неэлементарных
словосочетаний, соответствующих
существенным элементам ПрО
Представление реализаций
смысловых отношений в БРО
Формирование БРО
• В ходе интерактивного анализа
текста
• На основе предварительной
статистической обработки текстов
ПрО
• Использование обобщенных
определений отношений (правил
выделения в тексте)
Интерактивный анализ текста
Редактирование БРО с помощью
интерфейса ВизОт
Пирамидальные сети
Гладун В.П.
*
Пирамидальная сеть ―
ациклический
ориентированный граф,
в котором нет вершин с
одной заходящей дугой.
Рецепторы ― соответствуют символам входного алфавита
(объекты, признаки, слова, …).
Концепторы ― остальные вершины; соответствуют отдельным
объектам или общим частям нескольких объектов.
Q-сети
• Однородность
• Иерархичность
• Функциональность
Текст рассматривается как
иерархическая структура
фрагментов, каждый из которых
представляет некоторую
семантическую цельность
«анализ данных»
а=анализ, b=данные
r=процесс-объект
(r,a,b)
(s,A,b)
hjhjhjhj
«интеллектуальный (анализ данных)»
А=анализ данных, b=интеллектуальный
r=процесс-свойство
s=интеллектуальный анализ
jhjhjjh
(s,A,B)
s
A
a
r
Aa r bB
jhjhjhjjjhjj
B
b
«((процесс таксономии) начинается)
с (нормировки признаков)»
А=(процесс таксономии) начинается,
B=нормировка признаков
а=начинается, b=нормировка,
s=начинается с нормировки
Построение семантического
представления (СемП) текста
*
•Выделение в предложении связных цепочек
зависимостей (реализаций отношений) из БРО
1
2
3
4
5
6
7
8
9
•Взвешивание реализаций смыслового
отношения функцией f ( s , r), где s – значимость
реализации, r – расстояние между его аргументами
в предложении
3
9
•Построение для каждой цепочки
1
2
4
зависимостей связывающей сети
8
максимального
веса
*
5
6
•Выбираем реализации
отношений веса
большего чем g_1.
Строим по ним
непересекающиеся
8
фрагменты первого
C
типа, начиная с
самых «тяжелых»
3
A
2
1
9
5
D
2
4
1
8
9
C
4
6
B
A
3
*
6
5
B
•Расширяем построенные
фрагменты, используя
оставшиеся реализации
веса большего чем g_2.
•Объединяем фрагменты, используя реализации
отношений веса не меньшего чем gamma_3
E
D
A
3
1
*
2
B
4
6
5
8
9
C
Пример работы компоненты анализа текста
Формирование понятий
Понятие — фрагмент знаний, представляющий собой
обобщенную модель класса элементов мира, в котором
оперирует система, достаточную для выполнения на ее основе
операций распознавания и генерации моделей конкретных
элементов мира.
Объемы понятий
ПрО
Фрагменты Тексты Понятия
{T}
{P}
{F}
{f_1,...,f_n}
t_1
p_1
{g_1,...,g_m}
t_2
p_2
{r_1,...,r_k}
t_3
p_3
{q_1,...q_s}
t_4
p_4
.....
.....
.....
{P(t_1)}
*
Доля j-го фрагмента в i-м понятии
a_ij =
Число текстов, затрагивающих i-е понятие, СемП которых
содержит j-й фрагмент
Общее число текстов, затрагивающих i-е понятие
Понятия
p_i
Тексты
Фрагменты
f_j
*
Шум j-го фрагмента для i-го понятия
b_ij =
Число текстов, не затрагивающих i-е понятие, СемП
которых содержит j-й фрагмент
Общее число текстов, содержащих j-й фрагмент
Понятия
p_i
Тексты
Фрагменты
f_j
Объединяющие признаки
Среди всех фрагментов текста t, для каждого
понятия p_i из {P_t}, находим критичный
фрагмент r c максимальным значением a_ir
при b_ir < b.
p_i
Понятия
Тексты
t
r
Фрагменты
g
f
*
Разделяющие признаки
*
Пусть в тексте t затрагивается понятие p_j и
не затрагивается понятие p_i. Пусть существует
фрагмент f текста t, являющийся критичным
фрагментом понятия p_i такой что в тексте t нет
критичным фрагмента r понятия p_j, включающего
в себя фрагмент f.
p_j p_i
Понятия
Тогда выберем такой
фрагмент r с
максимальным
Тексты
значением b_ir и
t
a_jr > a.
r
Фрагменты
f
ASCONT
Инструментальная система
для коллективной разработки онтологии
Редактор
Представление онтологии
+ Соответствие современным стандартам
+ Наличие аппарата формального вывода
+ Открытость
+ Графическое редактирование
+ Эффективность машинной обработки

OWL (Ontology Web Language)
*
Технологические требования
+ Совместимость с концепцией e-Science
+ Масштабность
+ Распределённость
+ Динамичность
+ Неоднородность

GRID
*
Архитектура
Архив
Центральный
репозиторий
<OWL>
<OWL>
Пользователи
Разработка Онтологии
Онтология
Эксперт
Эксперт
Редактор
Разработка Онтологий
*
Репозиторий
Эксперт
Онтология
Онтология
A
B
Онтология
C
Эксперт
Эксперт
Окно диалога с системой
Зародыш онтологии DM
Онтология
предметной области
Data Mining
(Onto-DM)
Какую область
будет охватывать онтология
Onto-DM?
Для чего
мы будем использовать
онтологию
Onto-DM?
На какие вопросы
должна давать ответы
онтология Onto-DM?
Кто будет
разрабатывать, использовать и
поддерживать онтологию Onto-DM?
(Онтология Onto-DM)
“класс”
Данные
“класс”
Задача
“класс”
Метод
“класс”
Приме
р
ограничения использование реализация
“класс”
Данные
“класс”
ТаблицаОСВ
“класс”
?
МатрицаООВ
“объект”
“объект”
“объект”
“объект”
Строка
Столбец
Серия
Подтабли
ца
“класс”
Данные
“свойство”
“свойство”
“свойство”
“свойство”
Размерность
ТипШкалы
Пробел
Достоверность
“значение”
“значение”
“значение”
“значение”
1-M, 1-N, 1-T
A,R,I,O,N,C
Да, Нет
0-1
Slot
Facet
*
“класс”
Задача
“класс”
“класс”
“класс”
“класс”
“класс”
“Понятие”
Таксоном
ияS
ВыборПр
изнаковX
Распозна
ваниеD
Пробел
Z
Прогноз
P
КомбиТи
п
*
Стрелки указывают на отношение:
Метод Х применяется для решения задачи Y
S
X
D
“класс”
Метод
Z
P
…
“объект”
“объект”
“объект”
“объект”
“объект”
“объект”
FOREL
KRAB
NatClass
K-means
SPA
AdDel
NTPP
LRP
SDF
LDR
TDF
k-NNR
CruSt
FB
Lokator
ZET
WANGA
LGAP
ZET
WANGA
SX
SD
DX
DSX
Полигоны
*
Стрелки указывают на отношение:
Случай Z является примером решения задачи Y методом X.
S
X
D
“объект”
“объект”
Геологи
я
Экономи
ка
Генетика
медицин
а
“класс”
Пример
Z
P
…
“объект”
“объект”
“объект”
“объект”
Речь
Изображ
ения
Экологи
я
Геологи
я
Генетик
а
Финанс
ы
Экономи
ка
Цифры
Генетика
Демоверсии программ
Определения терминов и отношений
Data Mining – область деятельности, связанной с обнаружением
причинно-следственных зависимостей (закономерностей, знаний )
в массивах экспериментальных или статистических данных.
Синонимы: Интеллектуальный анализ данных, Подъем данных,…
Данные – множество отдельных фактов, значений признаков, …
Синонимы: протокол наблюдений, data, data table
Знание – утверждение об общих свойствах множества фактов,
о зависимости между значениями признаков.
Синонимы: закономерность, зависимость, regularity, …
Объект – выделенный элемент изучаемого мира
Синонимы: реализация, вектор, точка, entity, …
Свойство – характеристика объекта
Синонимы: признак, атрибут, параметр, feature, …
…….
СПАСИБО ЗА
ВНИМАНИЕ