Лингвистическая онтология тезаурус РуТез и приложения

Download Report

Transcript Лингвистическая онтология тезаурус РуТез и приложения

Лингвистическая онтология
тезаурус РуТез
и приложения автоматической обработки
текстов
Лукашевич Н.В.
внс НИВЦ МГУ
[email protected]
Автоматическая обработка текстов в
современных информационных системах
• Типы обработки
– информационный поиск, автоматическая рубрикация,
автоматическое аннотирование, автоматическая кластеризация
и др.
• Основные задачи
– оценка значимости документа относительно заданного критерия
– определение основного содержания, тематики текста или
фрагмента
• Проблемы
– широкие предметные области для приложений автоматической
обработки текстов
– разнообразие типов связных текстов
– использование статистических методов – нехватка знаний о
предметной области, трудности интерпретации результатов
• Как построить понятийную модель широкой предметной области
для приложений автоматической обработки текстов?
Лингвистические ресурсы для
автоматической обработки текстов



Наш опыт: развитие ресурсов для задач
информационного поиска с 1994 года
Большой объем: тысячи слов и словосочетаний
Модель описания знаний о языке и мире должна быть:




«легкая»,
полезная в широком круге приложений
тестирование ресурса в приложениях
Созданные ресурсы:



Тезаурус РуТез,
Общественно-политический тезаурус
Онтология по естественным наукам и технологиями (ОЕНТ) и
др.
План презентации
• Общие принципы и структура Тезауруса
РуТез
• Отношения в тезаурусе РуТез
• Автоматическая обработка текстов на
основе тезауруса РуТез
• Приложения
Традиции представления знаний
в широких предметных областях

Информационно-поисковые тезаурусы



Ресурсы типа WordNet



Иерархическая сеть языковых понятий – синсетов
Принстонский университет
Формальные онтологии


Нормативный словарь с формализованными отношениями
для улучшения качества информационного поиска
Международные и национальный стандарты
Формализованное описание предметной области в виде
понятий и отношений между ними
 Понятия, экземпляры
 Атрибуты, отношения
 Аксиомы (правила вывода)
Ни один из этих типов ресурсов не предназначен для
автоматической обработки текстов

Модель лингвистической онтологии
• Лингвистическая онтология – онтология, опирающаяся в своем
построении на значения реально существующих языковых
выражений
• ЛО = < C, N, Ex, R, A, T, S, M, L>
–
–
–
–
–
С – понятие онтологии
N – имя понятия
Ex – экземпляры
R – отношения между понятиями { r (Ci, Cj) }
A – правила вывода (симметричность, транзитивность, наследование)
– Т – языковые выражения, значения которых
представлены в онтологии
– S – отношения между языковыми выражениями (T) и
понятиями (С) : { s (Ci, tj) }
– M – многозначные слова и выражения из Т: M  T
– L – лемматическое представление языкового
выражения
Лингвистическая онтология
Тезаурус РуТез
 Понятие:
 Имя
понятия
 Набор
текстовых выражений
 Отношения
между понятиями

53 тыс. понятий,
156 тыс. текстовых выражений,
210 тыс. отношений (более 2 млн. с иерархией)

Переведен на английский язык:
130 тысяч слов и выражений
Общая структура тезауруса РуТез

Две составные части

Общий лексикон
 Абстрактные
 Оценки,

действия, процессы
эмоции и т.д.
Общественно-политический тезаурус
 Общественно-политическая
область – жизнь
современного общества
 Состав:
экономика, финансы, оборона,
законодательство, научная политика, спорт,
искусство, военные конфликты и др
Тезаурус по
общественно-политической жизни
• Структурированная энциклопедия жизни
современного общества
–
39 тысяч понятий
– 110 тысяч терминов
– 140 тысяч прямых отношений
• предметная область – проблемы современного
общества
• типы обрабатываемых текстов – официальные
документы, международные договора, законы,
газетные статьи, новостные сообщения
• Состав: термины и тематическая лексика
Тезаурус РуТез и типы лексики
Тезаурус РуТез
53 тыс.понятий,
156 тыс. терминов
Промежуточная
зона
Общественнополитический
тезаурус (фрагмент
РуТез)
39 тыс.понятий,
110 тыс. терминов
Специальная
лексика
Общая
лексика
Специальная
лексика
Отношения
в тезаурусе РуТез
Подходы к представлению отношений
• Информационно-поисковые тезаурусы, ворднеты:
– небольшие наборы отношений
– слабая формализация
• vs. наборы семантических отношений, правила
логического вывода
– Трудозатраты? Надежность логического вывода?
• Цели нашего описания:
– необходимо использовать отношения, не имея возможности
подробно проанализировать контекст упоминания понятия в
тексте
– обеспечение логического вывода
– применимость для широкой предметной области
– переносимость на разные предметные области
Принципы установления
отношения в ЛО
• Надежные отношения:
– отношение м.б. установлено между понятиями Сi и Сj, если
– или
( ei  E (Ci )  e j  E (C j ))
(e j  E (C j )  ei  E (Ci ))
• Типы надежных отношений
– родовидовое отношение (береза – дерево)
– отношение часть-целое (корма – судно)
– отношение онтологической зависимости (кипение –
жидкость)
– + ограниченное использование отношений симметричной
ассоциации – «предсинонимы» (босоножки – сандалии)
Модель описания отношения
часть-целое
• Существование экземпляров понятия-части Сi зависит от
существования экземпляров целого Сj.
ei  E (Ci )   e j  E (C j )
• Уничтожение или серьезное повреждение экземпляра части
ведет к изменению экземпляра целого
ei  E (Ci )  e j  E (C j ) : уничтожение (ei ) norm изменение (e j )
• Подвиды частей не ограничиваются
– балкон зала - зрительный зал, член партии - политическая партия,
водоизмещение – судно, инвестор – инвестирование, медицинская
помощь- медицина
• Транзитивность отношения часть-целое
Пример транзитивной цепочки
отношения часть-целое
• целое (АПТЕКА, ЛЕКАРСТВЕННОЕ ОБЕСПЕЧЕНИЕ)
• целое (ЛЕКАРСТВЕННОЕ ОБЕСПЕЧЕНИЕ,
МЕДИЦИНСКАЯ ПОМОЩЬ)
• целое (МЕДИЦИНСКАЯ ПОМОЩЬ, ЗДРАВООХРАНЕНИЕ)
• →
• целое (АПТЕКА, ЗДРАВООХРАНЕНИЕ)
Отношение онтологической зависимости
• Х онтологически зависит от Y тогда и только тогда,
когда
Х существует только, если Y существует
– D(X, Y) = def (существует (X)  существует (Y))
– Guarino et al.
• Много подвидов:
– Родовая, строгая зависимость
– Внешняя и внутренняя зависимость и др.
– Примеры:
• МОЗГ Джона – зависит от – Джона,
ЛЕС- зависит от - ДЕРЕВО
Наш подход:
внешняя концептуальная зависимость
• 1) Понятие с1 зависит от понятия c2, если
– Exist (с1) -> Exist (c2)
– концептуальная зависимость:
CD (C1 , C2 )  def (( ( x)  ( x  e (C1 )))  y ( y  e (C2 )   ( y )))
• 2) Внешняя зависимость: не представимо в виде
отношения часть-целое
часть (С1 , С2 )  часть (С2 , С1 )
 C k : выше (C1 , C k )  (часть (Ck , C2 )  часть (C2 , Ck ))
ЛЕС : зависимые понятия
• ЛЕСНОЙ ПОЖАР (ЛЕСОПОЖАРНЫЙ; ПОЖАР В
ЛЕСУ)
• ЛЕСНАЯ НАУКА
(НАУКА О ЛЕСЕ)
• ЛЕСОВЛАДЕНИЕ
• ЛЕСОПОЛЬЗОВАНИЕ (ЛЕСНОЕ ПОЛЬЗОВАНИЕ;
ПОЛЬЗОВАНИЕ УЧАСТКАМИ ЛЕСНОГО ФОНДА)
Свойства отношений ЛО
транзитивность, наследование
• выше(X,Y) & выше (Y,Z)
• ниже (Х,Y) & ниже (Y,Z)
• выше (Х,Y) <-> ниже (Y,X)
→ выше(X,Z)
→ ниже(X,Z)
(t)
(t)
(r)
• целое (X,Y) & целое (Y, Z) → целое (X, Z) (t)
• выше(X,Y) & целое (Y, Z) → целое (X, Z) (i)
• часть (X,Y) <-> целое (Y, X)
(r)
• выше (X,Y) &
асц1 (Y, Z) → асц1 (X, Z)
• целое (X,Y) &
асц1 (Y, Z) → асц1 (X, Z)
• aсц1 (X, Y) <-> асц2 (Y, X)
(i)
(i)
(r)
• выше (X,Y) &
асц (Y, Z)
• целое (X,Y) &
асц (Y, Z)
• aсц (X, Y) <-> асц (Y, X)
(i)
(i)
(s)
→ асц (X, Z)
→ асц (X, Z)
Автоматическая обработка текстов
на основе лингвистической
онтологии
Значимость слова в тексте
• Распространенная модель:
– мешок слов – употребление слова в документе не зависит от
употребления других слов
weight d t   f ( freqd (t ))
• Новая модель
weight d t   f ( freqd (t ), Cluster i d ,t ,
i
j
ts
(
Cluster
,
Cluster
))
 s
i
– где Cluster d ,t - кластер текстовых единиц, близких t по g(t,
d) – функции смысловой близости;
–
tss (Cluster i , Cluster j )
- частота встречаемости
представителей двух кластеров в предложениях документа
Пример тематического представления
О порядке оказания безвозмездной финансовой помощи
на строительство (покупку) жилья и выплаты денежной
компенсации за наем (поднаем) жилых помещений
военнослужащим и гражданам, уволенным с военной службы
Во исполнение
Закона
Российской
Федерации
"О
статусе
военнослужащих" и в целях обеспечения прав на жилище военнослужащих
и граждан, уволенных с военной службы, Правительство Российской
Федерации п о с т а н о в л я е т :
1. Утвердить
прилагаемое
Положение
о
порядке оказания
безвозмездной финансовой помощи на строительство (покупку) жилья и
выплаты денежной компенсации за наем (поднаем) жилых помещений
военнослужащим и гражданам, уволенным с военной службы.
2. Министерству
обороны
Российской
Федерации
и
иным
федеральным органам исполнительной власти, в которых предусмотрена
военная служба:
в месячный срок разработать и утвердить формы и перечень
документов,
необходимых
для
принятия
решения
об оказании
военнослужащим безвозмездной финансовой помощи на строительство
(покупку) жилья и о выплате денежной компенсации за наем (поднаем)
жилых помещений;
расходы, связанные с оказанием военнослужащим безвозмездной
финансовой помощи и выплатой денежной компенсации за наем (поднаем)
жилых
помещений, производить за счет и в пределах средств,
выделяемых из федерального бюджета по сметам этих федеральных
органов исполнительной власти.
3. Органам
исполнительной
власти
субъектов
Российской
Федерации:
оказывать безвозмездную
финансовую
помощь
в
избранном
постоянном месте жительства гражданам, уволенным с военной службы,
осуществляющим строительство (покупку) жилья, за счет и в пределах
средств федерального бюджета, выделяемых на жилищное строительство
для этой категории граждан;
О порядке оказания безвозмездной финансовой помощи
на строительство (покупку) жилья и выплаты денежной
компенсации за наем (поднаем) жилых помещений
военнослужащим и гражданам, уволенным с военной службы
Во исполнение
Закона
Российской
Федерации
"О
статусе
военнослужащих" и в целях обеспечения прав на жилище военнослужащих
и граждан, уволенных с военной службы, Правительство Российской
Федерации п о с т а н о в л я е т :
1. Утвердить
прилагаемое
Положение
о
порядке оказания
безвозмездной финансовой помощи на строительство (покупку) жилья и
выплаты денежной компенсации за наем (поднаем) жилых помещений
военнослужащим и гражданам, уволенным с военной службы.
2. Министерству
обороны
Российской
Федерации
и
иным
федеральным органам исполнительной власти, в которых предусмотрена
военная служба:
в месячный срок разработать и утвердить формы и перечень
документов,
необходимых
для
принятия
решения
об оказании
военнослужащим безвозмездной финансовой помощи на строительство
(покупку) жилья и о выплате денежной компенсации за наем (поднаем)
жилых помещений;
расходы, связанные с оказанием военнослужащим безвозмездной
финансовой помощи и выплатой денежной компенсации за наем (поднаем)
жилых
помещений, производить за счет и в пределах средств,
выделяемых из федерального бюджета по сметам этих федеральных
органов исполнительной власти.
3. Органам
исполнительной
власти
субъектов
Российской
Федерации:
оказывать безвозмездную
финансовую
помощь
в
избранном
постоянном месте жительства гражданам, уволенным с военной службы,
осуществляющим строительство (покупку) жилья, за счет и в пределах
средств федерального бюджета, выделяемых на жилищное строительство
для этой категории граждан;
СОБСТВЕННОСТЬ
(1)
СООРУЖЕНИЕ
(1)
А
ЗДАНИЕ
(1)
ДЕНЬГИ
(22)
СТРОИТЕЛЬСТВО
(12)
ЖИЛОЕ ЗДАНИЕ
(1)
ПЛАТИТЬ
(1)
ЖИЛИЩНОЕ СТРОИТЕЛЬСТВО
(4)
А
ЖИЛИЩНО-СТРОИТЕЛЬНЫЙ
КООПЕРАТИВ (2)
ПОКУПКА
(6)
МНОГОКВАРТИРНЫЙ ДОМ
(1)
ЖИЛОЕ ПОМЕЩЕНИЕ
(25)
НАНЯТЬ
(13)
А
НАЕМ ЖИЛОГО
ПОМЕЩЕНИЯ
(13)
ЖИЛАЯ ПЛОЩАДЬ
(1)
КВАРТИРА
(2)
В
В
ЖИЛИЩНАЯ НОРМА
(2)
КОМНАТА (ПОМЕЩЕНИЕ)
(1)
----+----------------------------------------------------------------------+
| ВОЕННАЯ СЛУЖБА; ВОЕННОСЛУЖАЩИЙ; ВОИНСКАЯ СЛУЖБА ПО КОНТРАКТУ
****|
|
|
|
|
+------------------------------------------------------------------+
|
| ЖИЛОЕ ПОМЕЩЕНИЕ; НАЕМ ЖИЛОГО ПОМЕЩЕНИЯ; ОБЕСПЕЧЕННОСТЬ ЖИЛЬЕМ;
****| X | КВАРТИРА; ЖИЛИЩНАЯ НОРМА; КОМНАТА (ПОМЕЩЕНИЕ); ЗДАНИЕ;
|
| ЖИЛОЕ ЗДАНИЕ; ЖИЛАЯ ПЛОЩАДЬ
|
|
+--------------------------------------------------------------+
|
****|
|
|
****|
|
|
****|
|
|
****|
|
|
****|
|
|
|
****|
|
z |
|
|
X |
|
|
X |
|
|
. |
|
|
X |
|
|
|
z |
|
z |
|
|
z |
|
|
z |
|
|
X |
|
|
. |
|
|
|
X |
|
|
|
|
ФИНАНСОВАЯ ПОМОЩЬ;
.
.
z
z
z
|
|
+----------------------------------------------------------+
| ГРАЖДАНИН
|
|
|
|
+------------------------------------------------------+
|
| УВОЛЬНЕНИЕ;
|
| X |
|
|
|
+--------------------------------------------------+
|
|
| СТРОИТЕЛЬСТВО; ЖИЛИЩНОЕ СТРОИТЕЛЬСТВО;
| . | . | ЖИЛИЩНО-СТРОИТЕЛЬНЫЙ КООПЕРАТИВ;
|
|
|
+----------------------------------------------+
|
|
|
| ФЕДЕРАЛЬНЫЙ ОРГАН ИСПОЛНИТЕЛЬНОЙ ВЛАСТИ;
| . | . | . | ОРГАН ИСПОЛНИТЕЛЬНОЙ ВЛАСТИ; ПРАВИТЕЛЬСТВО;
|
|
|
| ПРАВИТЕЛЬСТВО РОССИИ; МИНИСТЕРСТВО ОБОРОНЫ;
|
|
|
|
+------------------------------------------+
|
|
|
|
| ПОКУПКА; ДЕНЬГИ; ПЛАТИТЬ;
|
| . | . | z | z |
|
|
|
|
|
|
Тематическая аннотация
(Постановление Правительства РФ от 26 июня 1995 г. N 604)
----+----------------------------------------------------------------------+
| ВОЕННАЯ СЛУЖБА; ВОЕННОСЛУЖАЩИЙ; ВОИНСКАЯ СЛУЖБА ПО КОНТРАКТУ
|
****|
|
|
|
|
+------------------------------------------------------------------+
|
| ЖИЛОЕ ПОМЕЩЕНИЕ; НАЕМ ЖИЛОГО ПОМЕЩЕНИЯ; ОБЕСПЕЧЕННОСТЬ ЖИЛЬЕМ;
|
****| X | КВАРТИРА; ЖИЛИЩНАЯ НОРМА; КОМНАТА (ПОМЕЩЕНИЕ); ЗДАНИЕ;
|
|
| ЖИЛОЕ ЗДАНИЕ; ЖИЛАЯ ПЛОЩАДЬ
|
|
|
+--------------------------------------------------------------+
|
|
| ФИНАНСОВАЯ ПОМОЩЬ;
|
****| z | z |
|
|
|
|
+----------------------------------------------------------+
|
|
|
| ГРАЖДАНИН
|
****| X | z | . |
|
|
|
|
|
+------------------------------------------------------+
|
|
|
|
| УВОЛЬНЕНИЕ;
|
****| X | z | . | X |
|
|
|
|
|
|
+--------------------------------------------------+
|
|
|
|
|
| СТРОИТЕЛЬСТВО; ЖИЛИЩНОЕ СТРОИТЕЛЬСТВО;
|
****| . | X | z | . | . | ЖИЛИЩНО-СТРОИТЕЛЬНЫЙ КООПЕРАТИВ;
|
|
|
|
|
|
|
+----------------------------------------------+
|
|
|
|
|
|
| ФЕДЕРАЛЬНЫЙ ОРГАН ИСПОЛНИТЕЛЬНОЙ ВЛАСТИ;
|
****| X | . | z | . | . | . | ОРГАН ИСПОЛНИТЕЛЬНОЙ ВЛАСТИ; ПРАВИТЕЛЬСТВО; |
|
|
|
|
|
|
| ПРАВИТЕЛЬСТВО РОССИИ; МИНИСТЕРСТВО ОБОРОНЫ; |
|
|
|
|
|
|
|
+------------------------------------------+
|
|
|
|
|
|
|
| ПОКУПКА; ДЕНЬГИ; ПЛАТИТЬ;
|
****| z | X | z | . | . | z | z |
|
Модель
тематического представления текста
• Кластер близких по смыслу слов представляет собой тематический
узел понятий ЛО
Cluster i d ,t  Tnode i  (C0i , {Cki })
• Тематическое представление текста
•
– Основные тематические узлы:
{TnodeiM }
–
TnodeiM , TnodeMj  tss (TnodeiM , TnodeMj )  0
–
 ts (Tnode
s
C2|M |
M
i
, Tnode Mj )   tss (Tnodek , Tnodel )  0
C2|M |
– Локальные тематические узлы
– Упоминавшиеся понятия
• Модель основывается на теории связного текста (Новиков,
1983; Шевченко, 2003; Гальперин, 1984; VanDijk, 1985; Tomlin, 1997; и др.),
• Глобальная связность текста (основная тема)
• Лексическая связность текста
Построение концептуального индекса
1.
A
C
B
Сопоставление текста с ЛО
Извлечение отношений между
найденными понятиями
D
F
E
G
Автоматическое
разрешение многозначности
слов
Построение тематического
представления
Вычисление весов
понятиям текста
freq(d ; D)
 (d )    them (d ; D)  (1   ) 
max freq(c; D)
c
Методы автоматической обработки текстов
на основе тематического представления
Автоматическое
расширение
запроса
Автоматическая
рубрикация
Автоматическое
аннотирование
Порождение концептуального индекса:
Синонимы
–– соединены вместе
–– разделены
Разные значения
Вес понятия с учетом тематического представления
Лингвистическая
онтология
Тематическое
представление
(вычисление основных тем)
Лингвистическая онтология и
тематическое представление в
приложениях АОТ
Пример релевантного документа
по запросу «т рудовая миграция»
с расширением запроса по иерархии тезауруса
АЛОТ в приложениях информационного поиска
0,8
0,7
0,6
xxxx-1
0,5
uis
xxxx-3
0,4
xxxx-4
xxxx-5
0,3
xxxx-6
0,2
0,1
0
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
РОМИП2008 Legal adhoc, pd35
Запросы по терминам
DM OZ cate gorization we bpage s 2007, or onlyJudge d
0,9
0,8
0,7
0,6
xxxx-1
xxxx-2
0,5
xxxx-3
0,4
xxxx-4
thescateg
0,3
0,2
0,1
0
F1
Длинные запросы
F1 (micro
average)
Precision
Precision (micro
average)
Recall
Recall (micro
average)
РОМИП2007 Web page классификация
Обработка сверхдлинных запросов типа
«формулировка проблемы»
Туристическая фирма (турагент) занимается реализацией путевок сторонних
организаций в санаторно-курортные и оздоровительные учреждения.
В соответствии с действующим законодательством реализация такого продукта не
подлежит обложению НДС. Однако в ходе проверки налоговой инспекцией нам были
предъявлены санкции за неуплату налога с суммы агентского вознаграждения. Правы
ли в данном случае налоговые органы? ("Консультант бухгалтера", N 7, июль 2001 г.)
– Автоматическое формирование булевского выражения вида
•
(ТУРИСТИЧЕСКАЯ ФИРМА или ТУРАГЕНТ или ТУРИЗМ или ЭКСКУРСИЯ)
•
и ( САНАТОРНО-КУРОРТНОЕ ЛЕЧЕНИЕ или ОЗДОРОВИТЕЛЬНОЕ УЧРЕЖДЕНИЕ или САНАТОРИЙ
или КУРОРТ или ДОМ ОТДЫХА
или ДЕТСКОЕ ОЗДОРОВИТЕЛЬНОЕ УЧРЕЖДЕНИЕ или ПРОФИЛАКТОРИЙ)
•
и ( НАЛОГОВОЕ ОСВОБОЖДЕНИЕ или ФЕДЕРАЛЬНАЯ НАЛОГОВАЯ СЛУЖБА или НАЛОГОВАЯ
ИНСПЕКЦИЯ или НАЛОГ НА ДОБАВЛЕННУЮ СТОИМОСТЬ)
•
и ( АГЕНТСКОЕ ВОЗНАГРАЖДЕНИЕ или АГЕНТ (ПРЕДСТАВИТЕЛЬ)
или ТУРАГЕНТ или АГЕНТСКИЙ ДОГОВОР или ПОСРЕДНИЧЕСКОЕ ВОЗНАГРАЖДЕНИЕ )
«Аккуратное» расширение запроса
Метод автоматического рубрицирования
• Классификация (рубрикация) текстов - отнесение текста к
одной или нескольким категориям из конечного множества
рубрик
• Ф:
D  C  {0, 1}
• Описание рубрики в виде булевского выражения над
опорными понятиями
R 

Di
Di
i


K ij
j
• Правило расширения понятий: f(·) = {E, L, N, W, V)
• В результате
R 
D
i
i


i


 K ij  
j


i


j


  d ijk 
k

Расширенное представление рубрики
понятиями ЛО
Рубрицирование
рубрика
A
дизъюнкты
C
конъюнкты
B
опорные
концепты
D
полное
описание
F
E
G
Тематическое представление
Описание рубрики
……………………………………………………………………………………
…
Di ……… Bj ………………………………………………..……….
………………………………………………………………………………….
…………………………………………………………………………….
………………………………………………………………………………………….
………………………………………………………………………………………….
Результаты независимого тестирования автоматической
классификации документов РОМИП2007:
247 рубрик – 8 чел*час
DM OZ categorization webpages 2007, or onlyJudged
0,9
0,8
0,7
0,6
xxxx-1
xxxx-2
0,5
xxxx-3
0,4
xxxx-4
thescateg
0,3
0,2
0,1
0
F1
F1 (micro
average)
Precision
Precision (micro
average)
Recall
Recall (micro
average)
Автоматическое аннотирование текстов
• T={ Si }, A=
{S kаннот}  {S itext }
• Аннотирование одного и многих документов
• Проблемы:
– Полнота представления информации
– Связность и читабельность аннотации
• Предложен метод автоматического аннотирования на основе
тематического представления
– Аннотирование одного документа
– Аннотирование многих документов
– Основной принцип: каждое следующее предложение аннотации
должно отражать новую пару основных тематических узлов
• Основные тематические узлы
– помогают отделить главное от второстепенного
– обеспечивают связность аннотации
– снижение лишних повторов в аннотации
Аннотирование
A
… Bj ……… Ck …….
(B,C)
……… Bm ………….
C
B
…… Bn …… Ap….
D
(А,B,C)
… Cq …… Bt …….
F
E
G
…… Ds …… Ar…….
(А,B,C,D)
………………………….
Тематическое представление
Предложения текста

… Bj ……… Ck …….
…… Bn …… Ap….
…… Ds …… Ar…….
Результаты независимого тестирования методов автоматического
аннотирования SUMMAC 1998
(NIST DARPA TIPSTER III)
Обзорный (сводный) реферат
(Multi-document summarization)
Рамблер.Новости – кластеры, классификатор, тренды, …
Реальная схема работы
Новая порция
документов
Документы
временного окна
АЛОТ
Построение
индексных
структур порции
Построение
индексных структур
для кластеров
Перемещение
центров кластеров
(итерация K-Means)
Определение
активного
множества
Процедура
склейки
Сборка
всех кластеров
Новые исследования на основе
тезауруса РуТез
• Проблемы применения лингвистических ресурсов
– Неполнота
– Требуется разрешение лексической многозначности
• Использование для анализа тематической
структуры связного текста (кластера текстов)
факторов разного типа
– извлечение многословных объектов
– учет сходства по выражений
– учет расположения выражений (в соседних
предложениях – в одних и тех же предложениях)
– учет сходства контекстов
– учет информации из тезауруса
Примеры тематических узлов
новостного кластер про Алроса
• Компания: владелец компании, акция компании, акция,
пакет акций, контрольный пакет акций, владелец,
владение, состав владельцев, корпорация, предприятие,
прибыль компании, чистая прибыль, акционер компании
• Российская Федерация: Россия, Российский, РФ,
федеральный центр, федерализация, федеральная
собственность, государственная собственность,
собственность, государственная компания,
государственная корпорация, государственная структура,
государство, росимущество, корпорация, госообственность
• Алмазодобывающий: добыча алмазов, алмазный, алмаз,
алмазно-бриллиантовый комплекс, алмазное
месторождение, добыча
Преимущества от онтологий и тезаурусов
в разных приложениях
Information Retrieval Tasks
Benefits
Web Search
0+ %
Corporate Search / Legal Search
10 %
Long Queries / Verbose Queries
15 %
Text Categorization
15-50 %
News Clustering
6-15 %
Summarization, Visualization,
Multi Document Summarization
++
(SUMMAC)
Основные
проекты
Годы
ГосДума ФС РФ
1999н/в
ЦБ РФ
2006н/в
ФСБ РФ
2000н/в
ГАС «Выборы»
(ФКЗ «Право»)
1997н/в
НПП «ГарантСервис»
2002н/в
Рамблер.
Новости
20082012
Минюст РФ
2007
Мин-во экологии
МО
2007
НИЦ «Квант»
2004
Счетная палата
РФ
2003
ИППИ РАН (Упр.
спецпрограмм)
1996
ЛО:
ОП
Т
Новые
ЛО










Извл.
тер-ми
нов
Поиск







QA
Рубрикация













Аннотирование
Кластеризация
Обзор-ное
реферирование
Аналитические
отче-ты


 
   
 
  


 

Заключение
• В течение более чем 15 лет мы разрабатываем тезаурусы и
исследуем технологии их применения для решения
различных задач автоматической обработки текстов и
информационного поиска
• Наши выводы:
– Структура тезауруса, онтологии должна быть специально
адаптирована к задачам автоматической обработки
текстов
– Тезаурусные технологии не должны противопоставляться
современным технологиям пословной обработки текстов,
а органично учитывать последние достижения в этой
сфере
– При учете таких условий применение тезаурусов дает
значимое улучшение качества решения задачи по
сравнению с лучшими пословными методами