Тезаурус РуТез: структура и приложения

Download Report

Transcript Тезаурус РуТез: структура и приложения

Тезаурус РуТез:
структура и приложения
Лукашевич Н.В.
ведущий научный сотрудник НИВЦ
МГУ
louk_nat @mail.ru
Знания о мире в обработке
текстов на естественном языке
• В настоящее время: широкие предметные
области для приложений автоматической
обработки текстов
• В различных приложениях полезно
использовать знания о мире
• Знания о мире сложным образом связаны с
лексическими и терминологическими знаниями
• Как построить понятийную модель широкой
предметной области для приложений
автоматической обработки текстов?
Лингвистические ресурсы для
автоматической обработки текстов




Наш опыт: развитие ресурсов для задач
информационного поиска с 1994 года
Большой объем: тысячи слов и словосочетаний
Модель описания знаний о языке и мире должна
быть:
 «легкая»,
 полезная в широком круге приложений
 тестирование ресурса в приложениях
Созданные ресурсы:
 Тезаурус РуТез,
 Общественно-политический тезаурус
 Онтология по естественным наукам и
технологиями (ОЕНТ) и др.
Коллектив
1994 – н/в
АНО Центр информационных
исследований
(АНО ЦИИ)
1994 – 1997 Институт США и Канады РАН
1997 – н/в Научно-исследовательский
вычислительный центр
МГУ им.М.В.Ломоносова
Университетская информационная система
РОССИЯ (УИС РОССИЯ): три миллиона
документов (нормативные акты, пресса,
экономическая статистика)
Участие в организации
научных конференций
• «Электронные библиотеки: перспективные
методы и технологии, электронные коллекции»
(RCDL) -- ПК
• Российский семинар по оценке методов
информационного поиска (РОМИП) -- ОК
• Международная конференция «Компьютерная
лингвистика и интеллектуальные технологии»
(ДИАЛОГ) -- ОК
• Cross Language Evаluation Forum (CLEF)(20032009) -- НК
• European Conference on Research and Advanced
Проекты
• Рамблер (2007– н/в)
• Аппарат Государственной Думы ФС РФ (1999 -н/в)
• НИИ Восход для ЦИК РФ (1997 -- н/в)
•
•
•
•
•
•
НПП Гарант-Сервис (2002 – н/в)
ИК «Кодекс» для УОПИ ФСО РФ (2007 – 2008)
в/ч 43753 (2000 – 2007)
Банк России (2006 – н/в)
Счетная палата (2003)
Министерство образования; ГУМЦ «Базис» (2003,
04)
• «Аплана» (2006, 2008)
Приложения автоматической
обработки текстов
• Информационный поиск
– Корпоративные или предметно-ориентированные
системы
– Автоматическое расширение запроса
– Визуализация выдачи
• Автоматическая рубрикация текстов
– Несколько десятков рубрикаторов
• Автоматическая кластеризация текстов
• Автоматическое реферирование текстов
– Одного документа, многих документов, составление
аналитических отчетов
• Системы мониторинга
План презентации
• Тезаурус РуТез
– Общая структура
• Единицы Тезауруса
– Понятия тезауруса
– Текстовые входы (синонимы,
многозначность, словосочетания)
• Отношения Тезауруса
– Принципы установления
– Используемые типы отношений
• Приложения автоматической обработки
текстов
Тезаурус РуТез –
иерархическая сеть понятий
 Понятие:
 Имя
понятия
 Набор
текстовых выражений
 Отношения
между понятиями

53 тыс. понятий,
156 тыс. текстовых выражений,
210 тыс. отношений (более 2 млн. с
иерархией)

Переведен на английский язык:
130 тысяч слов и выражений
Общая структура тезауруса РуТез

Две составные части

Общий лексикон
 Абстрактные
 Оценки,

действия, процессы
эмоции и т.д.
Общественно-политический тезаурус
 Общественно-политическая
область – жизнь
современного общества
 Состав:
экономика, финансы, оборона,
законодательство, научная политика, спорт,
искусство, военные конфликты и др
Тезаурус по
общественно-политической жизни
• Структурированная энциклопедия жизни
современного общества
–
36 тысяч понятий
– 100 тысяч терминов
– 140 тысяч прямых отношений (1,1 млн. наследуемых)
• предметная область – проблемы современного
общества
• типы обрабатываемых текстов – официальные
документы, международные договора, законы,
газетные статьи, новостные сообщения
• Состав: термины и тематическая лексика
Тезаурус РуТез и специальная лексика
Специальная
лексика
Промежуточная
зона
Общая
лексика
Специальная
лексика
Специальные области vs.
общественно-политическая область
Уровни иерархии
Выборы
Общественнополитическая
область
География
Продукция
Тезаурус РуТез: учет трех традиций
 Информационно-поисковые
тезаурусы
 Название
понятия
 Включение многословных единиц
 Небольшой набор отношений
 Ресурсы
типа WordNet
 Подробное
включение отдельных
лексических единиц
 Аккуратное описание многозначности
 Формальные
 Отличимость
онтологии
понятий
 Формальные свойства отношений
Единицы тезауруса РуТез
Понятия тезауруса РуТез
• Понятие происходит от значения отдельных слов
или словосочетаний
• Проблемы ввода понятий
– Квазисинонимы
– Близкие значения многозначных слов
• Понятие должно быть отличимо от близких понятий
– Однозначно понимаемое имя
– Набор текстовых входов
– Набор отношений
– Название понятия
• Единое представление для:
– нетематической лексики,
– тематической лексики, терминологии
Имя понятия
• Однозначное слово:
– КАБЕЛЬ
• Однозначное словосочетание, являющееся одним из
текстовых входов понятия:
– ГОНОЧНЫЙ БОЛИД, КОСМИЧЕСКИЙ БОЛИД
• Неоднозначное словосочетание с пометой:
– КАБАЧОК (РАСТЕНИЕ), КАБАЧОК (ПЛОД)
• Пара синонимов – текстовых входов понятия через
запятую:
– ИРРАЦИОНАЛЬНЫЙ, ЛОГИЧЕСКИ НЕОБЪЯСНИМЫЙ
• Имя должно быть однозначно, понятно, отражать
особенности понятия.
Многословные языковые выражения
Словосочетаний может встретиться очень много
Мы вносим словосочетание, если это необходимо
для отражения новой информации
синонимы:
приватизировать – передать в частные руки;
многозначное становится однозначным:
положение дел, состояние дел
дополнительная структуризация сети
сельский дом: вилла, дача;
автомобиль
автомобильные гонки
автогонщик (пилот)
Синонимы в тезаурусе РуТез

Синонимы – языковые выражения,
являющиеся текстовыми входами к одному и
тому же понятию тезауруса

Разные части речи – дериваты могут быть
текстовыми входами одного и того же понятия

Назовем совокупность текстовых входов к
одному и тому же понятию – онтологическими
синонимами

Специальные усилия на поиск многословных
вариантов – снижение многозначности

Формирование обширных синонимических
рядов – стабильность распознавания понятия
в текста
Пример синонимического ряда
•
•
•
•
•
•
•
•
•
•
•
•
ЗАЩИТА ОКРУЖАЮЩЕЙ ПРИРОДНОЙ СРЕДЫ
ЗАЩИТА ПРИРОДНОЙ СРЕДЫ
ЗАЩИТА ПРИРОДЫ
ОХРАНА ОКРУЖАЮЩЕЙ ПРИРОДНОЙ СРЕДЫ
ОХРАНА ПРИРОДНОЙ СРЕДЫ
ОХРАНА ПРИРОДЫ
ОХРАНЯТЬ ПРИРОДУ
ПРИРОДОЗАЩИТА
ПРИРОДОЗАЩИТНЫЙ
ПРИРОДООХРАНА
ПРИРОДООХРАНИТЕЛЬНЫЙ
ПРИРОДООХРАННЫЙ
Близкие значения разных слов:
монумент и памятник
• Словарь синонимов (НОСС) – 5 различий:
• 1) в память о конкретном человеке обычно
ставится памятник, о группе людей – и памятник, и
монумент, о событии – монумент; идеи
воплощаются в монументах;
• 2) у монументов есть способность увековечивать
подвиг живых людей
• 3) по форме сооружения памятник часто представляет
собой изображение увековечиваемого объекта,
• 4) монумент обычно больше по размерам и т.п..
• Достаточны ли эти различия, чтобы ставить в
соответствие этим словам отдельные понятия?
Монумент и памятник - 2
• Проблема разделения:
– каковы отношения между собой
– каковы отношения с другими близкими
понятиями онтологии
• Проверка примеров показывает, что нет
разделяющего свойства для сущностей
монумент и памятник:
• Маргарет Тэтчер, которой в Британии при
жизни поставили памятник, узнала…
• Авторы словаря: различия нейтрализуются при
повторной, сокращенной номинации того же
сооружения
• Монумент, памятник –> одно понятие онтологии
Близкие значения разных слов:
водитель и шофер
• Синонимы во многих словарях синонимов
• НОСС: шофер управляет только автомобилем
или автобусом, водитель и другими
транспортными средствами
• Следовательно, вагоновожатый – водитель, но
не шофер (в любом контексте)
• Должно быть два понятия в онтологии:
• ВОДИТЕЛЬ ТРАНСПОРТНОГО СРЕДСТВА
(водитель)
• ВОДИТЕЛЬ АВТОМОБИЛЯ (водитель, шофер)
• Дополнение: шофер – обычно
профессиональный работник!
Водитель транспортного средства
(водитель)
Транспортный
работник
Судоводитель
Водитель автомобиля
(водитель)
Вагоновожатый
(водитель трамвая)
Профессиональный водитель
(шофер)
Таксист
Личный водитель
(личный шофер)
Многозначность в тезаурусе
• М-многозначность
– одно и то же слово (словосочетание) соответствует
двум понятиям:
пилот – ЛЕТЧИК, АВТОГОНЩИК
– Нужно выбрать значение
• А-многозначность – в тезаурусе описано одно значение,
но известно, что могут быть другие значения (пометка):
– Львов – ЛЬВОВ (ГОРОД)
– Нужно подтвердить/отвергнуть употребление
значения
Число многозначных единиц в Тезаурусе РуТез
- 16 тысяч многозначных слов и выражений
Пополнение тезауруса РуТез
• Новые реалии и пропущенная конкретика
(пополнение Общ.-политического тезауруса):
– Автодом, дача на колесах, инсоляция, национал-сепаратизм,
тайский бокс, автолестница, единый госэкзамен, пожарный
спринклер
• Пропущенные отдельные слова общей лексики
– Скривить, петься, минование, миролюбивость,
неравнодушие, небезразличие, зыбкий
• Словосочетания, уточняющие значения слов
– Пойти под откос, остаться в стороне, замыть
пятно, не обидеть способностями, тяжело даваться
Отношения
в тезаурусе РуТез
Подходы к представлению
отношений
• Информационно-поисковые тезаурусы,
ворднеты: небольшие наборы отношений
• vs.
• Наборы семантических отношений,
произвольные набор предикатов
– Но:
• Большие затраты труда для широкой ПО
• Непонятно, какой набор оптимален
• Контекстная зависимость
Надежные отношения
• Цель: необходимо использовать отношения, не
имея возможности подробно проанализировать
контекст упоминания понятия в тексте
– Возможности систем автоматической обработки текста
для анализа релевантности контекста ограничены
• Необходимо найти и описать для понятия те
отношения, которые выполняются для понятия
практически всегда:
– для всех или большинства примеров понятия
– в течение всего (или почти всего) времени существования
примера
Нужно описывать надежные отношения
Отношения в тезаурусе РуТез
отношение ВЫШЕ-НИЖЕ – таксономическое
отношение

Должно быть действительно для всех примеров
понятий и все время их существования
=> Транзитивность, наследование

отношение ЧАСТЬ-ЦЕЛОЕ – традиционные части,
участники ситуации, свойства
НО!!
Должно быть действительно для всех примеров
понятий-частей и все время их существования
=> Транзитивность

внешняя онтологическая зависимость - несимметричная
ассоциация – асц2

Симметричная ассоциация – для очень похожих понятий
Отношение ЦЕЛОЕ-ЧАСТЬ
• Отношение ЦЕЛОЕ-ЧАСТЬ обозначает включенность
по месту, времени, ситуации, сфере деятельности
• Х – это часть Y
– Изменение Х (или совокупности Х)
влечет изменение Y
– Отношение действует на протяжении большей
части нормального существования примера X
или это основная альтернатива
– Для нас:
колесо
– не есть ЧАСТЬ автомобиля:
автомобильное колесо – ЧАСТЬ автомобиля
– инвестор – это ЧАСТЬ для инвестирование
Примеры отношения часть-целое
•
•
•
•
Автопилот
Горбушка
Член партии
Балкон зала
-
летательный аппарат
хлеб
политическая партия
зрительный зал
• Грузоподъемность – транспортное средство
• Калорийность пища
• Водоизмещениесудно
• Инвестор
• Очиститель
• Дубильщик
-
инвестирование
очистка
дубление
Транзитивность отношения
ЧАСТЬ-ЦЕЛОЕ

Обвиняемый – обвинение в суде –
судебный процесс – судопроизводство –
судебная система

Аптекарь – аптека – лекарственное
обеспечение – медицинская помощь –
медицина – здравоохранение
Отношение внешней зависимости
(dependence relation)
• Концептуальная зависимость:
- понятие Х не возникло бы без существования
понятия Y
• Внешняя зависимость:
• - понятие X зависит от понятия Y,
• - экземпляры Y не являются всегда частями или
свойствами экземпляров X
 Примеры:
 понятие гараж зависит от понятия автомобиль
 Понятие автостроение зависит от понятия
автомобиль
• Обозначаем направленной ассоциацией: АСЦ1,
АСЦ2
Пример отношения
Дерево - Лес

Многие ресурсы указывают:
Дерево – часть Леса

Но: дерево не всегда в лесу, а лес
всегда состоит из деревьев

Понятие ЛЕС – зависит от понятия
ДЕРЕВО
Отношения концептуальной зависимости и
семантические имена отношений
ГАРАЖ
зависит_от
АВТОМОБИЛЬ
РЕКА
зависит_от
ПРЕСНАЯ ВОДА
ЭЛЕКТРОСТАНЦИЯ
ГИДРОзависит_от РЕКА
(источник?)
ЛЕС
зависит_от
ДЕРЕВО
(часть?)
ЛЕСНИЧЕСТВО
зависит_от
ЛЕС
(место?)
КИПЕНИЕ
зависит_от ЖИДКОСТЬ
(назначение?)
(часть?)
(пациенс?)
Семантические названия отношениям концептуальной
зависимости придумать непросто, и они были бы
достаточно разнообразны
=ЛЕС= : части
• БУРЕЛОМ
(ВЕТРОВАЛ; БУРЕЛОМНЫЙ)
• ГРУППА ЛЕСА
• ЛЕСНАЯ КУЛЬТУРА (ЛЕСНАЯ ПОРОДА; ЛЕСОХОЗЯЙСТВЕННАЯ
КУЛЬТУРА)
• ЛЕСНАЯ ПОЧВА
(ЛЕСНАЯ ПОДСТИЛКА)
• ЛЕСНЫЕ ЗЕМЛИ (ЛЕСНЫЕ УГОДЬЯ; ЛЕСНАЯ ТЕРРИТОРИЯ;
ЛЕСОРАСТИТЕЛЬНЫЙ РАЙОН; ЛЕСОРАСТИТЕЛЬНАЯ ЗОНА;
ЛЕСОПОКРЫТЫЕ ПЛОЩАДИ; ЛЕСОПОКРЫТЫЕ ЗЕМЛИ;
ЗЕМЛИ ЛЕСНОГО ФОНДА; ЗЕМЛИ, ПОКРЫТЫЕ ЛЕСОМ;
ПОКРЫТЫЕ ЛЕСОМ ПЛОЩАДИ)
• ОПУШКА
(ОПУШЕЧНЫЙ)
• ПОДЛЕСОК
(ПОДЛЕСОЧНЫЙ)
• ПОДРОСТ (МОЛОДНЯК)
• ПРОДУКТИВНОСТЬ ЛЕСА (БОНИТЕТ ЛЕСА)
• СУХОСТОЙ (СУХОСТОЙНЫЙ)
=ЛЕС= : зависимые понятия
• ЛЕСНОЙ ПОЖАР (ЛЕСОПОЖАРНЫЙ; ПОЖАР В ЛЕСУ)
• ЛЕСНАЯ НАУКА
(НАУКА О ЛЕСЕ)
• ЛЕСОВЛАДЕНИЕ
• ЛЕСОПОЛЬЗОВАНИЕ (ЛЕСНОЕ ПОЛЬЗОВАНИЕ;
ПОЛЬЗОВАНИЕ УЧАСТКАМИ ЛЕСНОГО ФОНДА)
Автоматическая обработка
текстов на основе тезауруса
Обработка текстов с
использованием тезауруса
• Морфологический анализ
– Индекс лемм
• Терминологический анализ
– Сопоставление с тезаурусом
– Разрешение многозначности (Общественно-политический
тезаурус точность > 75% - грант Яндекса 2005)
• Тематический анализ
– Выделение основной темы текста
– Учет близких по смыслу понятий для вычисления веса
понятия
– Концептуальный индекс с весами
Лексическая связность: пример
О порядке оказания безвозмездной финансовой помощи
на строительство (покупку) жилья и выплаты денежной
компенсации за наем (поднаем) жилых помещений
военнослужащим и гражданам, уволенным с военной службы
Во исполнение
Закона
Российской
Федерации
"О
статусе военнослужащих" и в целях обеспечения прав на жилище
военнослужащих и граждан, уволенных с военной службы,
Правительство Российской
Федерации п о с т а н о в л я е т :
1. Утвердить
прилагаемое
Положение
о
порядке
оказания безвозмездной финансовой помощи на строительство
(покупку) жилья и выплаты денежной компенсации за наем
(поднаем) жилых помещений
военнослужащим и гражданам, уволенным с военной службы.
2. Министерству
обороны
Российской
Федерации
и
иным федеральным органам исполнительной власти, в которых
предусмотрена военная служба:
в месячный срок разработать и утвердить формы и
перечень документов,
необходимых
для
принятия
решения
об оказании военнослужащим безвозмездной финансовой помощи
на строительство (покупку) жилья и о выплате денежной
компенсации за наем (поднаем)жилых помещений;
Тезаурусные отношения для документа
СОБСТВЕННОСТЬ
(1)
СООРУЖЕНИЕ
(1)
А
ЗДАНИЕ
(1)
ДЕНЬГИ
(22)
СТРОИТЕЛЬСТВО
(12)
ЖИЛОЕ ЗДАНИЕ
(1)
ПЛАТИТЬ
(1)
ЖИЛИЩНОЕ СТРОИТЕЛЬСТВО
(4)
А
ЖИЛИЩНО-СТРОИТЕЛЬНЫЙ
КООПЕРАТИВ (2)
ПОКУПКА
(6)
МНОГОКВАРТИРНЫЙ ДОМ
(1)
ЖИЛОЕ ПОМЕЩЕНИЕ
(25)
НАНЯТЬ
(13)
А
КВАРТИРА
(2)
В
КОМНАТА (ПОМЕЩЕНИЕ)
(1)
НАЕМ ЖИЛОГО
ПОМЕЩЕНИЯ
(13)
ЖИЛАЯ ПЛОЩАДЬ
(1)
В
ЖИЛИЩНАЯ НОРМА
(2)
Вес понятия в тексте:
тематическое представления
Главные темы
Локальные темы
freq(d ; D)
 (d )     (d ; D)  (1   ) 
max freq(c; D)
c
Тематическая аннотация
(Постановление Правительства РФ от 26 июня 1995 г. N 604)
----+----------------------------------------------------------------------+
| ВОЕННАЯ СЛУЖБА; ВОЕННОСЛУЖАЩИЙ; ВОИНСКАЯ СЛУЖБА ПО КОНТРАКТУ
|
****|
|
|
|
|
+------------------------------------------------------------------+
|
| ЖИЛОЕ ПОМЕЩЕНИЕ; НАЕМ ЖИЛОГО ПОМЕЩЕНИЯ; ОБЕСПЕЧЕННОСТЬ ЖИЛЬЕМ;
|
****| X | КВАРТИРА; ЖИЛИЩНАЯ НОРМА; КОМНАТА (ПОМЕЩЕНИЕ); ЗДАНИЕ;
|
|
| ЖИЛОЕ ЗДАНИЕ; ЖИЛАЯ ПЛОЩАДЬ
|
|
|
+--------------------------------------------------------------+
|
|
| ФИНАНСОВАЯ ПОМОЩЬ;
|
****| z | z |
|
|
|
|
+----------------------------------------------------------+
|
|
|
| ГРАЖДАНИН
|
****| X | z | . |
|
|
|
|
|
+------------------------------------------------------+
|
|
|
|
| УВОЛЬНЕНИЕ;
|
****| X | z | . | X |
|
|
|
|
|
|
+--------------------------------------------------+
|
|
|
|
|
| СТРОИТЕЛЬСТВО; ЖИЛИЩНОЕ СТРОИТЕЛЬСТВО;
|
****| . | X | z | . | . | ЖИЛИЩНО-СТРОИТЕЛЬНЫЙ КООПЕРАТИВ;
|
|
|
|
|
|
|
+----------------------------------------------+
|
|
|
|
|
|
| ФЕДЕРАЛЬНЫЙ ОРГАН ИСПОЛНИТЕЛЬНОЙ ВЛАСТИ;
|
****| X | . | z | . | . | . | ОРГАН ИСПОЛНИТЕЛЬНОЙ ВЛАСТИ; ПРАВИТЕЛЬСТВО; |
|
|
|
|
|
|
| ПРАВИТЕЛЬСТВО РОССИИ; МИНИСТЕРСТВО ОБОРОНЫ; |
|
|
|
|
|
|
|
+------------------------------------------+
|
|
|
|
|
|
|
| ПОКУПКА; ДЕНЬГИ; ПЛАТИТЬ;
|
****| z | X | z | . | . | z | z |
|
Тезаурус РуТез:
основные приложения
• Информационный поиск:
– Поисковый инструмент УИС Россия (www.cir.ru)
– расширение запросов
– вопросно-ответные системы
• Автоматическая рубрикация текстов
– Более 20 рубрикаторов
• Автоматическое аннотирование
– Аннотирование одного документа,
– Обзорный реферат
• Обработка потоков новостей, информационный
мониторинг
– Кластеризация документов
Представление смысла рубрики
опорными понятиями
Расширенное представление
рубрики понятиями тезауруса
Кластеризация новостей
Классификация документов и кластеров
Обзорный (сводный) реферат
(Multi-document summarization)
Преимущества от онтологий и
тезаурусов в разных приложениях
Information Retrieval Tasks
Benefits
Web Search
0+ %
Corporate Search / Legal Search
10 %
Long Queries / Verbose Queries
15 %
Text Categorization
15-50 %
News Clustering
6-15 %
Summarization, Visualization,
Multi Document Summarization
++
(SUMMAC)
Заключение
• В течение более чем 15 лет мы разрабатываем тезаурусы
и исследуем технологии их применения для решения
различных задач автоматической обработки текстов и
информационного поиска
• Наши выводы:
– Структура тезауруса, онтологии должна быть
специально адаптирована к задачам автоматической
обработки текстов
– Тезаурусные технологии не должны
противопоставляться современным технологиям
пословной обработки текстов, а органично учитывать
последние достижения в этой сфере
– При учете таких условий применение тезаурусов дает
значимое улучшение качества решения задачи по
сравнению с лучшими пословными методами