Лингвистические онтологии и автоматиче

Download Report

Transcript Лингвистические онтологии и автоматиче

8.3. WordNet: Проблемы
WordNet: проблемы использования в
автоматической обработке
• Отсутствие связей между частями речи
• Проблема отношений (недостаточно, а какие
должны быть?)
• Искусственность построения
(психолингвистический подход, перенос из
словарей)
• Несбалансированность состава (биология,
медицина)
• Нехватка словосочетаний
• Как работать с конкретными предметными
областями
Многозначность в WordNet
• 25 значений прилагательного good
• 41 значение глагола cut
• Sense 19
cut -- (make a recording of: "cut the songs")
=> record, tape -- (register electronically)
• Sense 20
cut -- (record a performance on; "cut a record")
=> record, tape -- (register electronically)
Проблема многозначности
• Синтаксическая многозначность
– Мать любит дочь
– Мужу изменять нельзя
• Лексическая многозначность
– Катать шарики (делать или перемещать)
– Вытравить рисунок (сделать или
уничтожить)
– Проехать остановку (покрыть расстояние или
миновать точку)
Лексическая многозначность:
полисемия и омонимия
• Омонимия – случайное внешнее совпадение
двух разных слов, нет общих элементов смысла:
– Лук (оружие) – лук (растение)
– Брак (изъян) – брак (женитьба)
• Полисемия – имеется общий элемент смысла
– Клапан мотора – клапан фагота – сердечный клапан –
клапан кармана: «часть предмета, закрывающая
отверстие в нем».
– Класс (разряд) – класс (общественная группа) – класс
(группа учащихся) – класс (комната для занятий)
Полисемия и диффузность значений
• Разбиение на значения - дискретная
организация лексических значений
• Между значениями: неясная, размытая
промежуточная область?
• Разные словари – разное количество
значений многозначных слов.
– Идти
• 30 значений (Большой толковый словарь)
• 25 значений (Словарь Ожегова)
Регулярная многозначность
• Действие – субъект действия: вахта, выделение
• Действие – объект действия: ассигнование,
вклейка, вложение
• Действие – инструмент: ванна, вентиляция, гудок
• Растение – плод: абрикос, малина
• Животное – мех: белка, норка, лиса
• Материал – изделие: бронза, гипс, стекло
• Часть тела – часть одежды: талия, локоть, плечо
• Сосуд – количество: ведро, стакан
Проблема лексической многозначности и
информационный поиск
• A Study of Sense Clustering Criteria for
Information Retrieval Applications
• Irina Chugur, Julio Gonzalo, and Felisa Verdejo
• Слишком подробное разделение значений – проблема для
приложений, в частности информационного поиска. Нет
необходимости в таком тонком различении для решения
этой задачи
• Adam Kilgarriff. “I don’t believe in word senses”: Word
senses exist only relative to a task”
Слишком тонкое разделение значений.
Примеры
• Bother - беспокойство
1.Smth or someone who causes trouble, a source of
unhappiness
2. An angry disturbance
• Amount - количество
2. How much of something is available
3. How much there is of anything
Разделение важно для других задач, но не важно
для информационного поиска
• Message - записка
1. A communication (usually brief) that is written or
spoken or signaled
2. What a communication is about
• Bet - ставка
1. The act of gambling
2. The money risked on a gamble
– Information extraction
Возможное решение
• Сгруппировать близкие смыслы, сократить
излишнюю полисемию
• Часто предлагаемое решение:
• Учесть регулярную полисемию
– Quantity/container, music/dance
• Но: animal/food, plant/food, animal/skin,
language/people встречаются в разных
контекстах
Группировка значений на основе корпуса
Semcor – корпус, размеченный значениями
WordNet
Смыслы группируются, если они встречаются
в одних и тех же текстах
Например, совместно встречаются
Breath
1. The air that is inhaled or exhaled in respiration
2. The act of exhaling
Исследование зависимости возможности
группирования смыслов от частотности
совместной встречаемости
• Число встреч Процент Прав. Групп
–
–
–
–
–
–
2
3
4
5
6
8
52
64
65
75
75.5
82
Что общего между смыслами, которые
можно сгруппировать
1) число общих синонимов между
синсетами
2) число общих слов в определениях
3) число общих гиперонимов
Любая комбинация этих трех величин
находится в наборах смыслов,
поддающихся группировке
Группирование значений: точка зрения
машинного перевода
• Важно различать те значения, которые
имеют различные переводы:
• Spring – (Spanish)
– Primaviera (season)
– Muelle (metal device)
– Fuente (fountain)
Parallel polysemy:
Child – enfant - kind
Гипотеза
• Можно ли использовать параллельную
полисемию для группирования значений
для целей информационного поиска.
• Взяли 20 существительных (73 значения)
• Эксперимент: рассмотреть для группирования те
совокупности смыслов, которые имеют
параллельные переводы хотя бы в одном из
четырех языков (испанский, французский,
голландский, немецкий)
Результат
• 27 синсетов
• 16 подходят для информационного поиска
band (8, 9)
– Behaviour (1,2,3)
– Bet (1,2)
• 11 не подходят
– Band (2, 7) лента – банда
– Rabbit (1,2)
– Итого 56 процентов подходят
Комментарий. Ответ на вопрос не
вписывается в структуру WordNet
• Группирование Да
– Container/volume, Music/dance, breath, bet
• Группирование Нет
– animal/food, plant/food, animal/skin,
language/people
• Ответ: анализ совместного существования
значений
Tennis problem
• Integrating Subject field codes into
WordNet
• Bernardo Magnini and Gabriela Cavaglia
• Subject Field Codes (SFC) – field codes в
словарях (Медицина, архитектура)
Tennis problem. Примеры
• Tennis, lawn tennis – court game – athletic
game
• Tennis court – court – playing field
• Tennis racquet – racquet – sports implement
• Tennis player – player – contestant
• Не установлено отношений между
понятиями
Subject field codes
• Соединяют различные части речи:
медицина – врач, оперировать
• Соединяют различные иерархические
пути: спорт – спортсмен, спортплощадка,
ракетка
• Могут использоваться:
– Расширение запроса,
– Разрешение многозначности
Система разметки
• 128 кодов, иерархия – 4 уровня
•
•
•
•
•
•
•
Agriculture
Archeology
Alimentation
Astrology
Biology
Medicine
Veterinary36
248
47
2563
16
20266
2660
Положение вне области
• Общие синсеты, которые трудно отнести к
какой-либо области
– Man 1 – an adult male person
– Man 3 – the generic use of the word to refer to
any human being
– Date 1 – day of the month
– Date3 – appointment, engagement
• Располагаются высоко в иерархии
• Очень многозначны
Положение вне области - 2
• Малоинформативные синсеты (Stop senses)
– числа, дни недели, цвета
• Выделена отдельная область Factotum:
– 2780 stop senses
– 3670 generics
Автоматизированная процедура разметки
1. Вручную размечается относительно
небольшое количество синсетов верхнего
уровня
2. Автоматически по связям (гипонимия,
тропонимия, меронимия, антонимия)
пометки распространяются на другие
синсеты
3. Можно задать исключения – barber_chair –
barbershop - COMMERCE
Продуктивность разметки
• Отношение общего числа размеченного к
количеству вручную размеченного для
области:
• Биология – 122
• Экономика – 6
Разметка для bank
1. Depository financial institution, bank
Economy
2. Bank (sloping land)
Geography, Geology
3. Bank (a supply or stock held in a reserve) Economy
4. Bank, bank building
Architecture,
economy
5. Bank (an arrangement of similar objects) Factotum
6. Savings bank, coin bank ( a container)
Economy
7. Bank (a long ridge or pile)
Geography, Geology
8. Bank (the funds held by a gambling house) Economy, play
9. Bank, cant, camber (a slope in the turn of a road) Architecture
10. Bank (a flight maneuver)
Transport
Evaluation
• Новостные сообщения
• Классификация по 41 категории второго
уровня
• Ошибки связаны с перегенерацией на
автоматическом шаге
• Нечеткость категории – психология
• Нехватка – понятий
• Точность 0.95, полнота – 0.96
Комментарий
• Наименования областей (domain) – это
тоже слова со своими значениями
• Если это просто этикетки, то смысл их
может меняться от контекста
• Разбиение на тематические области
зависит от приложения
eXtended WordNet: progress
report
• Rada Michalchea and Dan Moldovan
• Southern Methodist University
• NSF grant
Толкования в WordNet - источник
дополнительной информации
The noun chair has 4 senses
1. chair -- (a seat for one person, with a support for the back; "he put his coat
over the back of the chair and sat down")
2. professorship, chair -- (the position of professor; "he was awarded an
endowed chair in economics")
3. president, chairman, chairwoman, chair, chairperson -- (the officer who
presides at the meetings of an organization; "address your remarks to the
chairperson")
4. electric chair, chair, death chair, hot seat -- (an instrument of execution by
electrocution; resembles a chair; "the murderer was sentenced to die in the
chair")
The verb chair has 2 senses
1. chair, chairman -- (act or preside as chair, as of an academic department in
a university; "She chaired the department for many years")
2. moderate, chair, lead -- (preside over; "John moderated the discussion")
XWN: основные этапы
Обработка толкований
1. Preprocessing and parsing
2. Word Sense Disambiguation – все слова в
толковании должны быть размечены по
номерам значений WordNet
3. Logical form transformation – text inference,
axiomatic proof
4. Topical relations
XWN формат (SGML разметка)
• WordNet entry
• 0155911 A_battery| battery used to heat the filaments of
vacuum tube
• XWN entry
• <gloss>
• <WSD>
• <wf lemma=battery pos=NN wnsn=2>battery</wf>
• <wf lemma=use pos=VBN wnsn=1>used</wf>
• <wf pos=TO>to</wf>
• <wf lemma=heat pos=VB wnsn=1>heat</wf>…
• <wf lemma=vacuum_tube pos=VB
wnsn=1>vacuum_tube</wf>…
Организация автоматизированной
процедуры
• Работают два таггера (распознают части речи) T1
T2
• Точность PT1 и PT2
• Cov – количество случаев, в которых таггеры
соглашаются
• minPcov
• Человек может проверять только случаи
несогласия между таггерами
• Part of speech taggers (3) – 98 %
Word Sense Disambiguation
1. Однозначные слова
2. Слово в толковании является вышестоящим
для толкуемого слова
Devolve1 - pass on or delegate to another.
Delegate2 – принадлежит множеству
гиперонимов
3. Параллельные отношения
Aba2 – a fabric woven from goat and camel hair
– Exert3 – make a great effort at a mental or physical
task
WSD-2
4. SemCor биграммы – для каждого слова из
толкования запоминаются два соседних
слова, затем эти пары ищутся в корпусе
Approval – commitee approval of (with the
approval(1) of the Credit Association…)
5. Cross reference
– Agora3, forum3, public_square2 – a place of
assembly for the people in ancient Greece
– Place14 – a public square with room for
pedestrians
WSD-3
6. Расстояние между толкованиями
- число общих слов в толкованиях
различных значений слова и
рассматриваемым толкованием
Filament – 4 значения – только одно с heat
7. Общая область
– Mental – (biology) of or relating to the chin- or
lip-leke structure in insects and certain mollusks
Точность и полнота методов
(1000 толкований)
• Полнота
•
•
•
•
•
•
•
1 21.3
2 13.2
3 11.9
4 16.2
5 4.2
6 17.9
Комбинации методов
точность
100
99
85.7
92.2
80
89.2
SENSEVAL
• Hector lexicon
• 34 лексемы
• Для каждого собраны предложения,
размечены аннотаторами – 90% согласия
между аннотаторами
• Training data – 100 предложений
• Test data – 30 предложений
SENSEVAL - результаты
•
•
•
•
24 системы
75-85 точность и полнота
ROMANSEVAL
SENSEVAL2 – задания для 10 языков
Вопросы к лекции
1. Каковы проблемы, возникают при
использовании WordNet для
автоматической обработки текста?
2. Опишите проблему лексической
многозначности.
3. Как в WordNet происходит разрешение
многозначности?